共查询到20条相似文献,搜索用时 11 毫秒
1.
2.
3.
4.
5.
6.
7.
在数据挖掘的所有算法中,聚类分析尤为重要.基于划分的聚类算法就是用统计分析的方法研究分类问题.本文介绍了聚类的定义及聚类算法的种类,详细阐述了K均值聚类算法和K中心点聚类算法的基本原理并对它们的性能进行分析,对近年来各学者对基于划分的聚类算法的研究现状进行了梳理,对其具体应用实例做了简要介绍。 相似文献
8.
9.
Affinity Propagation(AP)聚类算法将所有数据点作为潜在的聚类中心,在相似度矩阵的基础上通过消息传递进行聚类, 但却不适用于子空间聚类。基于属性关系矩阵的AP子空间聚类算法(AP clustering algorithm based on attributes relation matrix, ARMAP)是一种异步软子空间聚类算法,首先通过计算属性a的 邻域得到属性的关系矩阵,然后通过查找极大全1子矩阵得到数据集的兴趣度子空间,最后在各兴趣度子空间使用AP算法聚类,完成子空间聚类的任务。ARMAP算法将子空间的查找转换成查找矩阵的极大全1子矩阵,在正确查找子空间的同时,降低了时间复杂度。算法既保留了AP聚类算法的优点,又克服了AP算法不能进行子空间聚类的不足。 相似文献
10.
11.
12.
密度峰值聚类算法(DPC)通过决策图直观地找到类簇中心进而完成聚类,是一种简单高效的聚类算法。然而,DPC算法的截断距离和类簇中心都是人为确定的,受主观影响较大,具有不确定性。针对上述问题,提出一种基于类簇合并的无参数密度峰值聚类算法(NDPCCM)。首先根据样本点两两之间的相似度的分布特征将其分为类内相似度和类间相似度两种类型,并利用类内相似度自动确定截断相似度,避免了人为设置参数;接着根据簇中心权值的下降趋势自动选择初始类簇中心,得到初始类簇;最后通过合并初始类簇对初步聚类结果进行优化,提高了聚类的准确性。在人工数据集和UCI真实数据集上,将所提算法与DPC、DBSCAN、K-means算法进行对比实验。结果表明所提算法无需输入参数就能够自动得到类簇,且聚类性能优于其他算法。 相似文献
13.
在数据挖掘中,针对聚类过程中数据存在的稀疏性问题,如果仍用传统的欧氏距离作为聚类指标,聚类的质量和效率将会受到一定的影响。受到信息论中KL散度的启发,文中提出一种基于Spark开源数据框架下利用KL散度的相似性度量方法,对目前使用的聚类算法进行优化。首先,通过预聚类,对数据的整体分布进行分析;然后,借助KL散度作为聚类的距离指标,充分利用数据集中元素提供的信息来度量不同数据集的相互关系,指导数据的聚类,在一定程度上改善了数据分布稀疏性的问题。整个过程基于Spark分布式数据处理框架,充分利用集群的能力对数据进行处理,提升数据处理的准确度和算法的时间效率;同时利用KL散度作为数据聚类距离指标,以充分考虑数据内部蕴藏的信息,使得聚类的质量得到了提升。最后通过一个实验来验证所提算法的有效性。 相似文献
14.
15.
16.
模糊聚类是一种重要数据分析和建模的无监督方法。本文对模糊聚类进行了概述, 从理论和实验方面研究了模糊 c 均值聚类算法,并对该算法的优点及存在的问题进行了分析。该算法设计简单,应用范围广,但仍存在容易陷入局部极值点等问题,还需要进一步研究。 相似文献
17.
18.
作为模式识别最基本的分类方法之一,聚类在各个科学领域的数据分析中都扮演着重要的角色.然而随着大数据的出现,聚类分析在前沿发展中不断地面临着计算复杂度和计算成本等新的问题和挑战.通过研究k-means聚类算法的时间复杂度O(nk),针对迭代过程中大量的最近邻计算和其特殊场景,引入KD树作为索引,提出了基于单KD树的近似近邻算法和基于多KD树的交叉搜索算法.将k-means聚类算法的时间复杂度降为O(nlog k),并通过实验验证,基于多树的交叉搜索算法具有与k-means聚类算法相当的聚类质量. 相似文献
19.
随着等级测评工作的定期进行,等级测评过程中会不断产生并积累海量的测评数据,但是从以测评报告形式存在的测评数据中无法有效地提取出有价值的信息,无法为后续的等级保护工作形成参考指导。利用K-means聚类算法对等级测评数据进行了分析。首先,介绍了等级测评的概念及基本内容;然后,阐述了K-means聚类算法理论;最后,详细地介绍了基于K-means聚类算法的等级测评数据分析的具体流程,为等级测评数据的充分利用提供了一定的参考。 相似文献
20.
作为模式识别最基本的分类方法之一,聚类在各个科学领域的数据分析中都扮演着重要的角色.然而随着大数据的出现,聚类分析在前沿发展中不断地面临着计算复杂度和计算成本等新的问题和挑战.通过研究k-means聚类算法的时间复杂度O(nk),针对迭代过程中大量的最近邻计算和其特殊场景,引入KD树作为索引,提出了基于单KD树的近似近邻算法和基于多KD树的交叉搜索算法.将k-means聚类算法的时间复杂度降为O(nlog k),并通过实验验证,基于多树的交叉搜索算法具有与k-means聚类算法相当的聚类质量. 相似文献