首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 11 毫秒
1.
聚类算法及聚类融合算法研究   总被引:1,自引:0,他引:1  
基于常用聚类算法及聚类融合算法进行了研究。首先阐述了数据挖掘领域的常用聚类算法及特点,接下来对近年来聚类融合的方法和研究现状进行了综述,并对如何产生高效的聚类成员和共识函数如何构建才能产生高效的聚类融合算法进行了说明。运用改进的随机投影算法来生成聚类成员,实验表明随机投影是一个生成聚类成员的很有效的方法。最后得出运用聚...  相似文献   

2.
邓祥  俞璐 《通信技术》2021,(8):1807-1814
聚类是机器学习的核心任务之一.聚类效果高度依赖于数据的特征表示.一个好的特征表示能够大幅度提高聚类效果,因此经典聚类算法使用特征提取算法提取一个利于聚类的特征表示.特征提取算法与聚类算法相互独立,导致特征提取与聚类算法脱钩.近些年,基于深度神经网络的聚类算法联合优化了特征提取过程与聚类过程,使用神经网络提取聚类导向的特...  相似文献   

3.
4.
密度聚类分析方法是经典聚类的一个重要分类,能够发现具有相同密度结构的数据,而不拘泥于数据的凹凸类型和集群形状.基于此,研究了密度聚类方法的发展现状:首先介绍了几种重要的经典密度聚类算法,并对其核心思想、算法流程、算法特性等进行了分析;其次总结归纳了各个经典密度聚类算法的优缺点、适用场景,介绍了密度聚类算法的实用案例;最...  相似文献   

5.
谱聚类算法是近年来国际上机器学习领域的一个新的研究热点,但其在文本聚类上的应用还较少。设计了一种文本聚类谱算法,首先构建文本相似度矩阵并进而得到拉普拉斯矩阵,随后对其进行特征值分解获得前k个最小特征向量,最后使用K均值算法(K-means)获得k个文本簇。在真实文本数据集上进行了实验,与超球K均值算法相比,本文算法获得了更好的聚类结果。  相似文献   

6.
本文提出了一种新的高效软聚类方法──截集模糊C-均值聚类(S2FCM).该方法将传统的硬聚类(HCM)和经典的模糊聚类(FCM)相统一,并进行了合理的推广而得出的一种有效的聚类方法,S2FCM聚类算法的思想更符合人的分类习惯,模拟实验表明,其总体性能优于FCM算法和HCM算法。  相似文献   

7.
在数据挖掘的所有算法中,聚类分析尤为重要.基于划分的聚类算法就是用统计分析的方法研究分类问题.本文介绍了聚类的定义及聚类算法的种类,详细阐述了K均值聚类算法和K中心点聚类算法的基本原理并对它们的性能进行分析,对近年来各学者对基于划分的聚类算法的研究现状进行了梳理,对其具体应用实例做了简要介绍。  相似文献   

8.
该文将T-分布随机近邻嵌入(TSNE)引入到聚类集成问题中,提出一种基于TSNE的聚类集成方法。首先通过TSNE最小化超图邻接矩阵的行对应的高维数据点与低维映射点分布之间的KL散度,使得高维空间结构在低维空间得以保持,然后在低维空间运行层次聚类算法获得最终的聚类结果。在基准数据集上的实验结果表明: TSNE能够提高层次聚类算法的聚类质量,该文方法获得了优于主流聚类集成方法的结果。  相似文献   

9.
Affinity Propagation(AP)聚类算法将所有数据点作为潜在的聚类中心,在相似度矩阵的基础上通过消息传递进行聚类, 但却不适用于子空间聚类。基于属性关系矩阵的AP子空间聚类算法(AP clustering algorithm based on attributes relation matrix, ARMAP)是一种异步软子空间聚类算法,首先通过计算属性a的 邻域得到属性的关系矩阵,然后通过查找极大全1子矩阵得到数据集的兴趣度子空间,最后在各兴趣度子空间使用AP算法聚类,完成子空间聚类的任务。ARMAP算法将子空间的查找转换成查找矩阵的极大全1子矩阵,在正确查找子空间的同时,降低了时间复杂度。算法既保留了AP聚类算法的优点,又克服了AP算法不能进行子空间聚类的不足。  相似文献   

10.
如何从海量评论文本中提出关键、有价值的文本数据为用户所用成为当前研究的重点。笔者主要针对国内评论挖掘技术系统尚未成熟问题,拟研究一个基于句法依存结构方法的特征评论挖掘方法,用于支持高效地聚类分析句子倾向性,得出有较好价值参考的评论数据信息。  相似文献   

11.
一种基于数据场的层次聚类方法   总被引:21,自引:0,他引:21  
聚类分析是统计、模式识别和数据挖掘等领域中一个非常重要的研究课题,具有广泛的应用前景.受物理学中场论思想的启发,提出一种基于数据场的层次聚类方法.该方法将物质粒子间的相互作用及其场描述方法引入抽象的数域空间,通过模拟对象在虚拟数据场中的相互作用和运动实现数据对象的自组织层次聚集.实验显示,该方法不依赖于用户输入参数的仔细选择,能够发现任意大小和密度的非球形聚类,对噪声数据不敏感,且具有近似线性的收敛速度.  相似文献   

12.
密度峰值聚类算法(DPC)通过决策图直观地找到类簇中心进而完成聚类,是一种简单高效的聚类算法。然而,DPC算法的截断距离和类簇中心都是人为确定的,受主观影响较大,具有不确定性。针对上述问题,提出一种基于类簇合并的无参数密度峰值聚类算法(NDPCCM)。首先根据样本点两两之间的相似度的分布特征将其分为类内相似度和类间相似度两种类型,并利用类内相似度自动确定截断相似度,避免了人为设置参数;接着根据簇中心权值的下降趋势自动选择初始类簇中心,得到初始类簇;最后通过合并初始类簇对初步聚类结果进行优化,提高了聚类的准确性。在人工数据集和UCI真实数据集上,将所提算法与DPC、DBSCAN、K-means算法进行对比实验。结果表明所提算法无需输入参数就能够自动得到类簇,且聚类性能优于其他算法。  相似文献   

13.
在数据挖掘中,针对聚类过程中数据存在的稀疏性问题,如果仍用传统的欧氏距离作为聚类指标,聚类的质量和效率将会受到一定的影响。受到信息论中KL散度的启发,文中提出一种基于Spark开源数据框架下利用KL散度的相似性度量方法,对目前使用的聚类算法进行优化。首先,通过预聚类,对数据的整体分布进行分析;然后,借助KL散度作为聚类的距离指标,充分利用数据集中元素提供的信息来度量不同数据集的相互关系,指导数据的聚类,在一定程度上改善了数据分布稀疏性的问题。整个过程基于Spark分布式数据处理框架,充分利用集群的能力对数据进行处理,提升数据处理的准确度和算法的时间效率;同时利用KL散度作为数据聚类距离指标,以充分考虑数据内部蕴藏的信息,使得聚类的质量得到了提升。最后通过一个实验来验证所提算法的有效性。  相似文献   

14.
文章主要分析了社区发现算法的基本发展情况,研究了由于不同分析对象形成的4类社区发现方法:基于边图思想方法、矩阵谱分析方法、基于极大团思想方法、层次聚类方法。详述其中具备最优越性能的层次聚类方式,对比分析典型算法,提出合理研究社区发现算法的方向,为以后进一步分析提供参考。  相似文献   

15.
K-means聚类算法研究综述   总被引:5,自引:0,他引:5  
总结评述了K-means聚类算法的研究现状,指出K-means聚类算法是一个NP难优化问题,无法获得全局最优。介绍了K-means聚类算法的目标函数、算法流程,并列举了一个实例,指出了数据子集的数目K、初始聚类中心选取、相似性度量和距离矩阵为K-means聚类算法的3个基本参数。总结了K-means聚类算法存在的问题及其改进算法,指出了K-means聚类的进一步研究方向。  相似文献   

16.
刘志国 《现代导航》2020,11(2):122-125
模糊聚类是一种重要数据分析和建模的无监督方法。本文对模糊聚类进行了概述, 从理论和实验方面研究了模糊 c 均值聚类算法,并对该算法的优点及存在的问题进行了分析。该算法设计简单,应用范围广,但仍存在容易陷入局部极值点等问题,还需要进一步研究。  相似文献   

17.
文本聚类是数据挖掘的核心技术,能帮助用户有效地导航、总结和组织文本信息。本文通过对文本聚类的应用研究,探讨了几种聚类算法的原理与特点,提出并分析了K-means算法与层次凝聚算法的具体实现步骤。  相似文献   

18.
作为模式识别最基本的分类方法之一,聚类在各个科学领域的数据分析中都扮演着重要的角色.然而随着大数据的出现,聚类分析在前沿发展中不断地面临着计算复杂度和计算成本等新的问题和挑战.通过研究k-means聚类算法的时间复杂度O(nk),针对迭代过程中大量的最近邻计算和其特殊场景,引入KD树作为索引,提出了基于单KD树的近似近邻算法和基于多KD树的交叉搜索算法.将k-means聚类算法的时间复杂度降为O(nlog k),并通过实验验证,基于多树的交叉搜索算法具有与k-means聚类算法相当的聚类质量.  相似文献   

19.
随着等级测评工作的定期进行,等级测评过程中会不断产生并积累海量的测评数据,但是从以测评报告形式存在的测评数据中无法有效地提取出有价值的信息,无法为后续的等级保护工作形成参考指导。利用K-means聚类算法对等级测评数据进行了分析。首先,介绍了等级测评的概念及基本内容;然后,阐述了K-means聚类算法理论;最后,详细地介绍了基于K-means聚类算法的等级测评数据分析的具体流程,为等级测评数据的充分利用提供了一定的参考。  相似文献   

20.
作为模式识别最基本的分类方法之一,聚类在各个科学领域的数据分析中都扮演着重要的角色.然而随着大数据的出现,聚类分析在前沿发展中不断地面临着计算复杂度和计算成本等新的问题和挑战.通过研究k-means聚类算法的时间复杂度O(nk),针对迭代过程中大量的最近邻计算和其特殊场景,引入KD树作为索引,提出了基于单KD树的近似近邻算法和基于多KD树的交叉搜索算法.将k-means聚类算法的时间复杂度降为O(nlog k),并通过实验验证,基于多树的交叉搜索算法具有与k-means聚类算法相当的聚类质量.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号