首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
快速搜索与发现密度峰值聚类(clustering by fast search and find of density peaks, DPC)算法对聚类中心点进行了全新的定义,能够得到更优的聚类结果。但该算法需要手动选取聚类中心,容易出现多选、漏选聚类中心的问题。提出一种自动选取聚类中心的密度峰值聚类算法。将参数积γ引入新算法以扩大聚类中心的选取范围,利用KL散度的差异性度量准则对聚类中心点和非聚类中心点进行清晰划分,以Dkl排序图中的拐点作为分界点实现了对聚类中心的自动选取。在人工以及UCI数据集上的实验表明,新算法能够在自动选取聚类中心的同时,获得更好的聚类效果。  相似文献   

2.
传统Kmeans聚类算法的性能易受初始类簇中心随机性和类簇中心计算的迭代过程中边缘点和离群点反复计入的影响,为了避免这些影响,该文提出一种基于反向K近邻和密度峰值初始化的加权Kmeans聚类算法。通过样本的近邻信息计算每个样本的反向K近邻,针对不同规模、不同密度分布数据集,可以自适应地搜索密度峰值点作为初始类簇中心;自适应设定相对簇半径,并通过样本加权进行类簇中心迭代,在不同数据分布下可以有效降低边缘点和离群点对聚类结果的影响。试验结果证明,该算法在聚类性能提升的同时迭代次数大幅降低,随着入侵行为类型和数据规模的增加,该文聚类算法仍体现出较好的性能,且在发现未知攻击类型上效果显著。  相似文献   

3.
密度峰值聚类(clustering by fast search and find of density peaks, DPC)算法是一种基于密度的聚类算法,它可以发现任意形状和维度的类簇,是具有里程碑意义的聚类算法。然而,DPC算法的样本局部密度定义不适用于同时发现数据集的稠密簇和稀疏簇;此外,DPC算法的一步分配策略使得一旦有一个样本分配错误,将导致更多样本的错误分配,产生“多米诺骨牌效应”。针对这些问题,提出一种新的样本局部密度定义,采用局部标准差指数定义样本局部密度,克服DPC的密度定义缺陷;采用两步分配策略代替DPC的一步分配策略,克服DPC的“多米诺骨牌效应”,得到ESDTS-DPC算法。与DPC及其改进算法KNN-DPC、FKNN-DPC、DPC-CE和经典密度聚类算法DBSCAN的实验比较显示,提出的ESDTS-DPC算法具有更好的聚类准确性。  相似文献   

4.
为构建行驶工况,消除K-均值算法对初始聚类中心的敏感性及噪声点的干扰,提出一种改进主成分分析和基于密度的改进K-均值聚类组合方法.结合距离优化法和密度法,构建一种数据集密度度量方法.选取距离较大、密度较高的数据点作为初始聚类中心与候选集,优化聚类结果的同时剔除了孤立点,采用较大贡献因子的特征值进行工况合成,最后对行驶工况油耗进行分析.结果表明,所提方法构建行驶工况的速度-加速度联合分布差异值为1.17%,特征参数平均相对误差较小.可见,合成的行驶工况能够很好地反映某地实际交通道路特征,拟合度较高.  相似文献   

5.
针对密度峰值聚类(DPC)算法在处理结构复杂、 维数较高以及同类中存在多个密度峰值的数据集时聚类性能不佳的问题, 提出一种基于K近邻和多类合并的密度峰值聚类(KM-DPC)算法. 首先利用定义的密度计算方法描述样本分布, 采用新的评价指标获取聚类中心; 然后结合K近邻思想设计迭代分配策略, 将剩余点准确归类; 最后给出一种局部类合并方法, 以防将包含多个密度峰值点的类分裂. 仿真实验结果表明, 该算法在22个不同数据集上的性能明显优于DPC算法.  相似文献   

6.
密度峰值聚类算法(Denisity peaks clustering,DPC)具有聚类速度快、实现简单、参数较少等优点,但该算法的截断距离参数需要人工干预,并且参数的选取对于该算法的结果影响较大。为了解决这一缺陷,该文提出了结合蝙蝠算法改进的密度峰值聚类算法。该算法利用蝙蝠算法较强的寻优能力,寻找合适的截断距离取值,同时对蝙蝠算法的速度更新公式加入了自适应惯性权重来加强全局搜索能力。该算法选择多种数据集进行了实验仿真,并与其他同类算法进行对比。经过对比验证,结合蝙蝠算法改进的密度峰值聚类算法在聚类准确率上要明显优于其他算法。  相似文献   

7.
针对网络异常流量检测技术准确率较低、簇的误划分等问题,提出基于改进密度峰值聚类算法的网络异常流量检测方案;首先对网络流量数据进行预处理和分组乱序,然后计算相应属性值并利用局部密度发现簇中心点,最后采用一种新的标签传递方式形成相应的簇群直至处理完所有数据。结果表明,相对于k均值算法和具有噪声的基于密度的聚类算法,基于改进的密度峰值聚类算法提升了网络异常流量的检测准确率,综合性能较优。  相似文献   

8.
针对经典模糊C均值聚类(FCM)对数据进行等权划分而造成聚类结果不理想的情况,首先,采用点密度加权方式,对变压器油中溶解气体分析(DGA)数据进行处理,提高样本可分性,削弱聚类时出现的等趋势划分对聚类中心以及分类结果造成的影响。然后,以DGA故障数据聚类中心作为变压器标准故障谱。最后,利用施加惯性系数的主成分分析方法对待测样本进行故障识别。研究结果表明:通过点密度加权的FCM对DGA数据进行故障类型分类时,平均准确率比传统FCM算法提升了9.6%。利用上述方法对多组油浸式变压器进行识别,识别结果与实测信息均一致。  相似文献   

9.
密度峰值算法依赖于欧式距离实现局部密度的选择,该算法在处理高维数据、存在密度不均匀的类簇的数据集上效果不是很理想.针对以上问题,提出一种融合流形距离与标签传播的改进密度峰值聚类算法(improved density peak clustering combining manifold distance and labe...  相似文献   

10.
为了解决密度峰值聚类算法选择密度峰值点困难以及误分配的问题,基于流形的连通性,提出了一种改进的密度峰值聚类算法。通过使用三支密度峰值聚类算法,得到初始聚类结果与簇的边界点,根据这些边界点之间的连通性判断初始聚类之间的连接情况,并利用这些信息进行聚类结果融合。重复上述过程,每次迭代中在剩余数据里寻找密度峰值候选点,并将其纳入聚类过程,得到一种对流形数据友好的聚类算法。结果表明,所提算法在人工数据集和真实数据集上均有较好的表现,聚类准确度相较现有算法更高。基于连通性的三支密度峰值聚类算法可以在不计算路径距离的前提下,有效识别流形数据,大大降低了计算成本。  相似文献   

11.
FDBSCAN算法是对典型密度聚类算法DBSCAN的一个改进算法,在一定程度上加快了聚类速度,但其在聚类过程中容易丢失一部分对象,成为噪声,影响了聚类结果.文章针对FDBSCAN算法存在的问题进行了深入的研究,提出从核心领域中的核心点中选择代表对象的方法,在一定程度上解决了丢失点的问题.  相似文献   

12.
运用OPTICS算法能发现任意形状的聚类,且对输入参数不敏感的优势,提出一种基于OPTICS密度聚类的支持向量机算法,通过对原始数据进行预处理,利用可达图得到约简样本代替原始训练样本用支持向量机进行训练,降低了SVM训练所需的时间及空间复杂度.实验表明,该方法在保持分类精度的同时,大大缩短了训练时间,提高了分类效率.  相似文献   

13.
提出一种基于改进密度聚类的异常检测算法(ADIDC), 通过在各特征列上分别进行密度聚类, 并根据各特征对正常轮廓的支持度进行特征加权, 解决了聚类分析方法在异常检测应用中误报率较高的问题. 通过大量基于异常检测数据集 KDD Cup 1999的实验表明, 其相对于传统异常检测方法在保证较高检测率的前提下, 有效地降低了误报率, 对某些与正常行为相近的特殊攻击检测率明显提高. 同时利用特征权值进行特征筛选提高了其检测性能和效率, 更适应实时检测要求.  相似文献   

14.
【目的】针对在标准协同训练中不具有充分冗余的视图分割,致使分类器错误累计过多,以及一对基分类器标记样本类别不一致的问题,提出了基尼指数结合K均值聚类的协同训练算法。【方法】该算法首先计算已标记样本中各特征的基尼指数,将该指数升序排列后均等划分到两个视图,然后在基分类器所标记的样本中,运用K均值聚类确定标记不一致样本的类别后加入标记样本。【结果】通过9个UCI数据集在3组实验上的结果表明,所提算法相较于对比算法提升了分类效果。【结论】运用基尼指数均等划分关键特征于两个视图,有利于改善视图分割不充分冗余的缺陷;K均值聚类法对分类不一致样本进行重新标记,降低了协同训练算法中的误标记率。  相似文献   

15.
一种改进的基于密度和样本数量的K-means算法   总被引:1,自引:0,他引:1  
对原始K-means算法进行了研究,通过改进,算法能够自动找出合适的k值,并且最大限度的找出孤立点。首先,寻找样本容量的最大可能初始聚类数n。然后做样本圆,将样本圆等分为n份,依据样本点的位置将样本归属到相应的份里,对初始的n个类进行聚类。最后通过应用DBSCAN算法的小类合并策略将需要合并的小类进行了合并。为了测试改进算法的聚类性能,将改进后的算法源码放在新西兰怀卡托大学所开发的开源平台"weka"上,在多个数据集上与原始K-means算法进行了对比实验,验证了改进算法在聚类质量和聚类稳定性上都远优于原始K-means算法。  相似文献   

16.
一种基于密度的引力聚类算法   总被引:1,自引:0,他引:1  
针对传统基于距离的聚类算法所存在的缺点,将万有引力和牛顿第二运动定律思想引入到聚类过程中,提出了一种改进的基于密度的引力聚类算法GCABD.该算法可以自动决定目标数据集中的簇的个数,并且能发现任意形状的簇且可以过滤"噪声"数据.实验结果表明,所提出的GCABD算法的聚类效果和精度均比典型的K-means算法好,提高了聚类质量.  相似文献   

17.
【目的】针对标准协同训练中视图分割不充分冗余导致两个分类器误差累积加大,且两个分类器对同一个未标记样本分类不一致的问题,提出了结合信息增益率和K-means聚类的协同训练算法。【方法】该算法先根据有标记样本计算出数据中每一个特征的信息增益率,将信息增益率高的特征平均划分到两个视图,再在每次分类过程中应用K-means聚类确定标记不一致样本点的最终类别。【结果】通过在9个UCI数据集上的3组实验表明,与对比算法相比,所提算法中两视图分类器的平均正确率差值降低了2.9%,有效均衡了分类器性能,同时在分类准确率和算法稳定性上也有较大提升。【结论】利用信息增益率将关键特征均衡划分到两个视图,有效解决了视图分割不充分冗余问题;K-means聚类重新分类标记不一致的样本,降低了样本被误分类的概率。  相似文献   

18.
对于具备空间特性的数据来说,基于密度的聚类方法是一种基本且行之有效的聚类技术.尽管现有很多基于密度的空间聚类算法和技术,但是这些算法多数都假设数据分布于平滑空间.弯曲空间与平滑空间只局部存在相似性.本文的目的在于探讨一种新的基于密度的流形空间聚类,即基于弯曲空间的算法.此算法主要来源于切空间,并适用于非均匀、非线性的数据分布,同时给出了性能分析和实验测试.  相似文献   

19.
基于网格和密度的随机样例的聚类算法   总被引:2,自引:0,他引:2  
为提高密度聚类算法效率并处理非空间属性约束,提出了基于网格和密度的聚类算法(GDRS).它使用网格区域表示点的邻域,非空间属性被分为数值和字符类型.首先通过网格方法找到能准确反映数据空间几何特征的参考点;然后随机选择没有分类的参考点,并测试其邻域的稀疏状况、与其他聚类的关系以及非空间属性的约束来决定加入、合并聚类或形成新的聚类;最后把参考点映射回数据.把此算法和DBSCAN及DBRS算法进行了理论比较,并使用合成和真实数据集对GDRS和DBSCAN进行了对比.实验表明,GDRS具有密度算法的优点,即可发现各种形状的聚类并能屏蔽噪声点,且执行效率明显优于密度算法.  相似文献   

20.
提出了一种基于距离和密度的聚类和孤立点检测算法.该算法根据距离和密度阈值对数据进行聚类,同时发现数据中的孤立点.实验结果表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好的识别出孤立点.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号