首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
传统K-means聚类算法初始聚类中心以及聚类数目K是随机确定的,聚类结果受其影响较大,这样容易造成聚类结果不稳定且准确率较低.针对上述问题,本文提出一种基于优化初始聚类中心和轮廓系数的K-means聚类算法.首先,为了选出准确的初始聚类中心,引入平均样本距离和误差平方和,构造初始聚类中心的选取方法,使得选取的初始聚类...  相似文献   

2.
K-means聚类算法是在数据挖掘和数据分析中一种常用算法,但是其存在依赖初始值和易陷入局部最优值的缺陷,针对这些不足,本文提出一种闪电分叉过程算法优化的K-means聚类,克服聚类算法在初始值选择困难的问题,提高K-means聚类算法的求解精度,降低陷入局部最优的可能性。从UCI数据集中选取6个真实的数据集进行仿真实验,结果表明本文改进后的聚类算法有更好的求解精度和鲁棒性。  相似文献   

3.
K-means算法需要提前确定聚类数量和初始聚类中心.为了解决这个问题,提出了一种基于改进的差分进化算法DVDE的自动聚类算法(AC-DVDE).使用双交叉策略来添加基于个体间聚类的随机交叉策略,用于在传统的两点交叉操作之后的自动聚类中使用的特定编码方法;提出了用于聚类中心选择的随机交叉策略,聚类中心很可能偏离数据集或聚类中心太过集中的问题,通过改进,有效地避免算法本身随机性的错误聚类划分,首先筛选聚类中心,再进行聚类.通过比较UCI的四个数据集的仿真结果,提高了算法的聚类精度和稳定性,具有一定的价值.  相似文献   

4.
K-means算法是一种非常重要的聚类算法,然而算法的聚类效果受簇的个数、初始中心点位置的影响很大.提出基于优化初始中心集合和中心移动算法tNN-MEANS,算法有效解决了以下三个问题:1)准确确定大规模数据集中簇的个数;2)精确确定全局高密度的核心区域;3)克服了簇中存在多个高密度区域的问题.运用UCI数据集分别对X-means算法、DBSCAN算法和tNN-MEANS算法进行对比实验,实验结果验证了tNN-MEANS算法的聚类精度、确定簇的个数、蔟划分的正确率等性能均优于与之对比的其它算法.  相似文献   

5.
半监督学习是近年来机器学习领域中的一个重要研究方向,其监督信息的质量对半监督聚类的结果影响很大,主动学习高质量的监督信息很有必要.提出一种纠错式主动学习成对约束的方法,该算法通过寻找聚类算法本身不能发现的成对约束监督信息,将其引入谱聚类算法,并利用该监督信息来调整谱聚类中点与点之间的距离矩阵.采用双向寻找的方法,将点与点间距离进行排序,使得学习器即使在接收到没有标记的数据时也能进行主动学习,实现了在较少的约束下可得到较好的聚类结果.同时,该算法降低了计算复杂度,解决了聚类过程中成对约束的奇异问题.通过在UCI基准数据集以及人工数据集的实验表明,算法的性能好于相关对比算法,并优于采用随机选取监督信息的谱聚类性能.  相似文献   

6.
现有的基于遗传算法的K-means聚类算法,利用遗传算法的全局优化性提高了K-means算法的寻优能力,收敛速度却过慢.为了解决上述问题,提出基于云自适应遗传算法的K-means聚类算法,利用云模型云滴的随机性和稳定趋向性设计遗传算法的交叉和变异概率,并在进化过程中引入K均值算子,以克服算法收敛速度过慢的问题.实验比较表明,算法具有较好的全局优化性,且收敛速度较快,提高了聚类算法解决物流管理中数据聚类工作的能力.  相似文献   

7.
一种改进的遗传k-means聚类算法   总被引:8,自引:0,他引:8  
在经典的k-means聚类算法中,聚类数k必须事先给定,然而在现实中k很难被精确的确定.本文提出了一种改进的遗传k-means聚类算法,并构造了一个用来评价分类程度好坏的适应度函数,该适应度函数考虑的是在提高紧凑度(类内距)和分离度(类间距)的同时使得分类个数尽可能少.最后采用两个人工数据集和三个UCI数据集对k-means聚类算法(KM),遗传聚类算法(GA),遗传k-means聚类算法(GKM)和改进的遗传k-means聚类算法(IGKM)进行比较研究,比较的指标有类间距、类内距和分类正确率.研究证明改进的遗传k-means算法能够自动获取最佳聚类数k并且保持较高的正确率.  相似文献   

8.
提出了一个判别模糊聚类中聚类数有效性的新指标.首先利用FCM算法对数据集进行模糊聚类,通过隶属度矩阵和聚类中心构建加权二分网络.然后通过改进加权二分网络的模函数,定义一个新的聚类有效性指标.为了检验该有效性指标的性能,选取了三个常见的有效性指标在十五个数据集上进行了对比.实验结果表明,该有效性指标具有较好的性能.  相似文献   

9.
针对采用经典划分思想的聚类算法以一个点来代表类的局限,提出一种基于泛化中心的分类属性数据聚类算法。该算法通过定义包含多个点的泛化中心来代表类,能够体现出类的数据分布特征,并进一步提出泛化中心距离及类间距离度量的新方法,给出泛化中心的确定方法及基于泛化中心进行对象到类分配的聚类策略,一般只需一次划分迭代就能得到最终聚类结果。将泛化中心算法应用到四个基准数据集,并与著名的划分聚类算法K-modes及其两种改进算法进行比较,结果表明泛化中心算法聚类正确率更高,迭代次数更少,是有效可行的。  相似文献   

10.
密度峰值聚类算法(DPC)是一种基于密度的非监督学习算法.分析用电类型复杂的电力负荷数据集时,存在负荷曲线聚类效果过分依赖人为参数设定和无法识别潜在用电模式的缺陷.结合非参数核密度估计,使用带宽搜索与边界优化提出一种适应多类型复杂用户的电力负荷数据优化聚类算法.在某市10KV真实数据集中进行算法测试,使用Davies-Bouldin有效性指标对比优化前后算法聚类效果.结果表明改进算法在面向用户类型复杂的电力数据集时,能够实现已知用电模式精确识别与潜在用电模式的深度挖掘并显著提高聚类有效性.  相似文献   

11.
针对传统DBSCAN算法对高维数据集聚类效果不佳且参数的选取敏感问题,提出一种新的基于相似性度量的改进DBSCAN算法.该算法构造了测地距离和共享最近邻的数据点之间的相似度矩阵,克服欧式距离对高维数据的局限性,更好地刻画数据集的真实情况.通过分析数据的分布特征来自适应确定Eps和MinPts参数.实验结果表明,所提GS-DBSCAN算法能够有效地对复杂分布的数据进行聚类,且在高维数据的聚类准确率高于对比算法,验证了算法的准确性和可行性.  相似文献   

12.
对区间型符号数据进行特征选择,可以降低数据的维数,提取数据的关键特征。针对区间型符号数据的特征选择问题,本文提出了一种新的特征选择方法。首先,该方法使用区间数Hausdorff距离和区间数欧氏距离度量区间数的相似性,通过建立使得样本点与样本类中心相似性最大的优化模型来估计区间型符号数据的特征权重。其次,基于特征权重构建相应的分类器来评价所估计特征权重的优劣。最后,为了验证本文方法的有效性,分别在人工生成数据集和真实数据集上进行了数值实验,数值实验结果表明,本文方法可以有效地去除无关特征,识别出与类标号有关的特征。  相似文献   

13.
关菲  周艺  张晗 《运筹与管理》2022,31(11):9-14
协同过滤推荐算法是目前个性化推荐系统中应用比较广泛的一种算法。然而,它在处理数据稀疏性、可扩展性等方面存在一定不足。针对数据稀疏性问题,本文首先基于Slope One算法对初始的评分矩阵进行缺失值填充,其次利用基于K-means聚类的协同过滤算法预测目标用户的评分,并结合MovieLens数据集给出了相关对比实验;针对扩展性问题,本文首先提出了一种基于中心聚集参数的改进K-means算法,其次,给出了基于中心聚集参数改进K-means的协同过滤推荐算法流程,并结合MovieLens数据集设计了相关对比实验。实验结果表明,本文所提方法推荐精度均得到显著提高,数据稀疏性和扩展性问题得到了有效改善。因此,本文的研究结论不仅可进一步丰富协同过滤推荐算法的现有理论成果,还可以为提高推荐系统的精度提供理论依据和决策参考。  相似文献   

14.
采用统计检验的方法对基因表达数据的特征选取和冗余去除展开研究,为此提出了相应模型及算法,与已有文献中的模型与算法相比较,该模型所提方法思路直观,易于理解,算法构造简单,且运行效率高.数值实验选取3个两分类基因表达数据集,实验结果表明该方法对特征选取和冗余去除均有较好的效果.在此基础上,采用类中心距离法对选取的特征基因进行了分类实验,结果进一步表明,本文提出的方法对两分类基因表达数据具有较高的分类精确度.  相似文献   

15.
《数理统计与管理》2014,(4):634-641
基于Hausdorff距离用于定义两个紧集之间距离的考虑,将区间数视为一个紧集,定义了区间数之间的距离,并研究了区间向量的距离,从而得到聚类分析中两个样品间的距离。进一步定义了两个类之间的Hausdorff距离。为消除量纲对聚类结果的影响,研究了区间数据的标准化。基于此,给出了区间数据系统聚类算法。采用随机模拟的方法,对文中方法进行有效性评价,结论表明,Hausdorff距离法的聚类有效性在所有设计的实验条件下都要优于传统的欧式距离法。最后,基于符号数据分析的思想构造区间数据,给出了对多种动物群体按其身高、体重等生理特征进行聚类分析的算例。  相似文献   

16.
基于加权相似性的BIRCH聚类算法   总被引:1,自引:0,他引:1  
BIRCH方法是一个集成的层次聚类方法.它克服了凝聚层次聚类方法所面临的两个难点:可伸缩性和不能撤销前一步工作的问题.基于BIRCH聚类的多阶段聚类算法思想,结合基于权重的欧式距离度量和基于划分的K-means算法,提出了一种基于加权相似性的BIRCH聚类方法,并将方法应用在时间序列的气象数据分析中.  相似文献   

17.
基于AFS拓扑和AFCM的模糊聚类分析   总被引:1,自引:0,他引:1  
在分析AFS方法和AFCM算法的基础上,设计了一个新的模糊聚类算法.它首先应用AFS拓扑理论计算得到数据的相对距离,然后将相对距离应用于改进后的AFCM算法中,并进行了聚类实验.实验结果证明这样的聚类算法优于传统的HCM、FCM聚类算法,而且该方法能应用于含有布尔值或模糊概念的聚类分析中.  相似文献   

18.
文本聚类是聚类技术的重要研究领域.该技术根据文本的相似特征或相似表达式对文本进行聚类,使得属于同类的文本具有最大的相似性,而属不同类文本具有最大的差异性.与其它文字相比,蒙古文的结构和书写方式具有许多特征.本文结合K-means与克隆免疫算法提出了一种称为ICKM的新型聚类技术.四种元素集上的仿真实验说明了我们提出的方法在蒙古文聚类的有效性.  相似文献   

19.
针对模糊建模在进行结构辨识时需事先设定聚类数的问题,本文在改进模糊分割聚类算法的基础上,对算法中聚类数c给出优选方法,提出了参数自适应模糊聚类算法,并结合递推最小二乘法构建T-S模糊辨识算法。为了验证本文提出的模糊辨识方法的有效性,采用该算法对熟知的Box-Jenkins煤气炉数据和实际的电液位置伺服系统数据进行建模,结果显示该辨识方法具有较高的逼近精度和较好的泛化能力。  相似文献   

20.
针对传统的谱聚类算法不适合处理多尺度问题,引入一种新的相似性度量—密度敏感的相似性度量,该度量可以放大不同高密度区域内数据点间距离,缩短同一高密度区域内数据点间距离,最终有效描述数据的实际聚类分布.本文引入特征间隙的概念,给出一种自动确定聚类数目的方法.数值实验验证本文所提的算法的可行性和有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号