共查询到20条相似文献,搜索用时 46 毫秒
1.
2.
3.
《数学的实践与认识》2018,(21)
K-means算法需要提前确定聚类数量和初始聚类中心.为了解决这个问题,提出了一种基于改进的差分进化算法DVDE的自动聚类算法(AC-DVDE).使用双交叉策略来添加基于个体间聚类的随机交叉策略,用于在传统的两点交叉操作之后的自动聚类中使用的特定编码方法;提出了用于聚类中心选择的随机交叉策略,聚类中心很可能偏离数据集或聚类中心太过集中的问题,通过改进,有效地避免算法本身随机性的错误聚类划分,首先筛选聚类中心,再进行聚类.通过比较UCI的四个数据集的仿真结果,提高了算法的聚类精度和稳定性,具有一定的价值. 相似文献
4.
《数学的实践与认识》2013,(13)
K-means算法是一种非常重要的聚类算法,然而算法的聚类效果受簇的个数、初始中心点位置的影响很大.提出基于优化初始中心集合和中心移动算法tNN-MEANS,算法有效解决了以下三个问题:1)准确确定大规模数据集中簇的个数;2)精确确定全局高密度的核心区域;3)克服了簇中存在多个高密度区域的问题.运用UCI数据集分别对X-means算法、DBSCAN算法和tNN-MEANS算法进行对比实验,实验结果验证了tNN-MEANS算法的聚类精度、确定簇的个数、蔟划分的正确率等性能均优于与之对比的其它算法. 相似文献
5.
半监督学习是近年来机器学习领域中的一个重要研究方向,其监督信息的质量对半监督聚类的结果影响很大,主动学习高质量的监督信息很有必要.提出一种纠错式主动学习成对约束的方法,该算法通过寻找聚类算法本身不能发现的成对约束监督信息,将其引入谱聚类算法,并利用该监督信息来调整谱聚类中点与点之间的距离矩阵.采用双向寻找的方法,将点与点间距离进行排序,使得学习器即使在接收到没有标记的数据时也能进行主动学习,实现了在较少的约束下可得到较好的聚类结果.同时,该算法降低了计算复杂度,解决了聚类过程中成对约束的奇异问题.通过在UCI基准数据集以及人工数据集的实验表明,算法的性能好于相关对比算法,并优于采用随机选取监督信息的谱聚类性能. 相似文献
6.
《数学的实践与认识》2015,(17)
现有的基于遗传算法的K-means聚类算法,利用遗传算法的全局优化性提高了K-means算法的寻优能力,收敛速度却过慢.为了解决上述问题,提出基于云自适应遗传算法的K-means聚类算法,利用云模型云滴的随机性和稳定趋向性设计遗传算法的交叉和变异概率,并在进化过程中引入K均值算子,以克服算法收敛速度过慢的问题.实验比较表明,算法具有较好的全局优化性,且收敛速度较快,提高了聚类算法解决物流管理中数据聚类工作的能力. 相似文献
7.
一种改进的遗传k-means聚类算法 总被引:8,自引:0,他引:8
在经典的k-means聚类算法中,聚类数k必须事先给定,然而在现实中k很难被精确的确定.本文提出了一种改进的遗传k-means聚类算法,并构造了一个用来评价分类程度好坏的适应度函数,该适应度函数考虑的是在提高紧凑度(类内距)和分离度(类间距)的同时使得分类个数尽可能少.最后采用两个人工数据集和三个UCI数据集对k-means聚类算法(KM),遗传聚类算法(GA),遗传k-means聚类算法(GKM)和改进的遗传k-means聚类算法(IGKM)进行比较研究,比较的指标有类间距、类内距和分类正确率.研究证明改进的遗传k-means算法能够自动获取最佳聚类数k并且保持较高的正确率. 相似文献
8.
9.
10.
密度峰值聚类算法(DPC)是一种基于密度的非监督学习算法.分析用电类型复杂的电力负荷数据集时,存在负荷曲线聚类效果过分依赖人为参数设定和无法识别潜在用电模式的缺陷.结合非参数核密度估计,使用带宽搜索与边界优化提出一种适应多类型复杂用户的电力负荷数据优化聚类算法.在某市10KV真实数据集中进行算法测试,使用Davies-Bouldin有效性指标对比优化前后算法聚类效果.结果表明改进算法在面向用户类型复杂的电力数据集时,能够实现已知用电模式精确识别与潜在用电模式的深度挖掘并显著提高聚类有效性. 相似文献
11.
针对传统DBSCAN算法对高维数据集聚类效果不佳且参数的选取敏感问题,提出一种新的基于相似性度量的改进DBSCAN算法.该算法构造了测地距离和共享最近邻的数据点之间的相似度矩阵,克服欧式距离对高维数据的局限性,更好地刻画数据集的真实情况.通过分析数据的分布特征来自适应确定Eps和MinPts参数.实验结果表明,所提GS-DBSCAN算法能够有效地对复杂分布的数据进行聚类,且在高维数据的聚类准确率高于对比算法,验证了算法的准确性和可行性. 相似文献
12.
对区间型符号数据进行特征选择,可以降低数据的维数,提取数据的关键特征。针对区间型符号数据的特征选择问题,本文提出了一种新的特征选择方法。首先,该方法使用区间数Hausdorff距离和区间数欧氏距离度量区间数的相似性,通过建立使得样本点与样本类中心相似性最大的优化模型来估计区间型符号数据的特征权重。其次,基于特征权重构建相应的分类器来评价所估计特征权重的优劣。最后,为了验证本文方法的有效性,分别在人工生成数据集和真实数据集上进行了数值实验,数值实验结果表明,本文方法可以有效地去除无关特征,识别出与类标号有关的特征。 相似文献
13.
协同过滤推荐算法是目前个性化推荐系统中应用比较广泛的一种算法。然而,它在处理数据稀疏性、可扩展性等方面存在一定不足。针对数据稀疏性问题,本文首先基于Slope One算法对初始的评分矩阵进行缺失值填充,其次利用基于K-means聚类的协同过滤算法预测目标用户的评分,并结合MovieLens数据集给出了相关对比实验;针对扩展性问题,本文首先提出了一种基于中心聚集参数的改进K-means算法,其次,给出了基于中心聚集参数改进K-means的协同过滤推荐算法流程,并结合MovieLens数据集设计了相关对比实验。实验结果表明,本文所提方法推荐精度均得到显著提高,数据稀疏性和扩展性问题得到了有效改善。因此,本文的研究结论不仅可进一步丰富协同过滤推荐算法的现有理论成果,还可以为提高推荐系统的精度提供理论依据和决策参考。 相似文献
14.
《数学建模及其应用》2019,(4)
采用统计检验的方法对基因表达数据的特征选取和冗余去除展开研究,为此提出了相应模型及算法,与已有文献中的模型与算法相比较,该模型所提方法思路直观,易于理解,算法构造简单,且运行效率高.数值实验选取3个两分类基因表达数据集,实验结果表明该方法对特征选取和冗余去除均有较好的效果.在此基础上,采用类中心距离法对选取的特征基因进行了分类实验,结果进一步表明,本文提出的方法对两分类基因表达数据具有较高的分类精确度. 相似文献
15.
《数理统计与管理》2014,(4):634-641
基于Hausdorff距离用于定义两个紧集之间距离的考虑,将区间数视为一个紧集,定义了区间数之间的距离,并研究了区间向量的距离,从而得到聚类分析中两个样品间的距离。进一步定义了两个类之间的Hausdorff距离。为消除量纲对聚类结果的影响,研究了区间数据的标准化。基于此,给出了区间数据系统聚类算法。采用随机模拟的方法,对文中方法进行有效性评价,结论表明,Hausdorff距离法的聚类有效性在所有设计的实验条件下都要优于传统的欧式距离法。最后,基于符号数据分析的思想构造区间数据,给出了对多种动物群体按其身高、体重等生理特征进行聚类分析的算例。 相似文献
16.
基于加权相似性的BIRCH聚类算法 总被引:1,自引:0,他引:1
BIRCH方法是一个集成的层次聚类方法.它克服了凝聚层次聚类方法所面临的两个难点:可伸缩性和不能撤销前一步工作的问题.基于BIRCH聚类的多阶段聚类算法思想,结合基于权重的欧式距离度量和基于划分的K-means算法,提出了一种基于加权相似性的BIRCH聚类方法,并将方法应用在时间序列的气象数据分析中. 相似文献
17.
18.
19.
20.
《数学的实践与认识》2013,(20)
针对传统的谱聚类算法不适合处理多尺度问题,引入一种新的相似性度量—密度敏感的相似性度量,该度量可以放大不同高密度区域内数据点间距离,缩短同一高密度区域内数据点间距离,最终有效描述数据的实际聚类分布.本文引入特征间隙的概念,给出一种自动确定聚类数目的方法.数值实验验证本文所提的算法的可行性和有效性. 相似文献