首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 92 毫秒
1.
针对传统k-means算法中初始聚类中心选取的随意性对于聚类结果影响较大的问题,提出了基于Leader算法的k-means改进算法——Lk-means算法.该算法有效避免了初始聚类中心选取的边缘化和随意性.实验证明,Lk-means算法的聚类结果更加有效合理.  相似文献   

2.
用k-means算法对二维数据进行聚类分析,并用C#语言实现了该算法。先按照样本点的距离进行初始划分,然后再按照各样本点和初始中点的距离远近进行聚类。结果表明,k-means算法对二维数据的聚类是有效的,实现该算法的程序对二维数据的聚类具有通用性。  相似文献   

3.
为获得分布式数据集上用户所期望的聚类结果,提出了基于约束信息的并行k-means聚类算法.在分析并行k-means能够有效实现对水平分布式数据集进行聚类的基础上,修改并行k-means算法的目标函数,设计约束并行k-means算法,将站点用户的约束信息以chunklet的形式引入到分布式聚类过程,从而引导算法执行有偏搜...  相似文献   

4.
经典的分布式k-means聚类算法随机选取初始聚类中心,进行多次的迭代,容易使得聚类效率低,网络通信量大,而且聚类结果不稳定。针对这些问题,提出一种改进的分布式k-means聚类算法。该算法通过划分数据集,计算属性最密集的k个数据块作为聚类中心,以确保聚类中心的代表性,进而减少算法的迭代计算次数,提高聚类效率。通过在Hadoop分布式平台上进行实验,结果表明改进算法能减少迭代次数和收敛时间。  相似文献   

5.
基于k-means聚类算法的试卷成绩分析研究   总被引:1,自引:0,他引:1  
研究了k-means聚类算法,并将此算法应用于高校学生试卷成绩分析中.首先对数据进行了预处理,然后使用k-means算法,对学生试卷成绩进行分类评价.用所获得的结果指导学生的学习和今后的教学工作.  相似文献   

6.
介绍了 k -means 和 DBSCAN 聚类算法的基本原理和优缺点,针对传统聚类算法无法有效处理高维混合属性数据集的问题,对原有的数据归一化方法进行改进,在 k -means 和 DBSCAN 聚类算法的基础之上,结合增量聚类的思想和数据之间相异度的计算方法,提出了基于密度的增量 k -means 聚类算法,有效处理具有高维混合属性的数据集,改进了数据相异度的计算方法。  相似文献   

7.
传统的k-means聚类算法对初始聚类中心非常敏感,聚类的结果也常常随着初始聚类中心而波动。为了降低聚类算法的这种敏感性,本文提出了一种自适应的聚类算法(SA—K—means),该方法通过计算数据对象区域的密度,选择相互距离最远的高密度区域的中心作为初始聚类中心。实验表明SA—K—means聚类算法能有效地消除聚类算法对初始聚类中心的敏感性,得到满意的聚类结果。  相似文献   

8.
针对k-means算法必须事先指定初始聚类数k,并且对初始聚类中心点比较敏感,聚类准则函数对求解的最优聚类数评价不理想,提出一种基于局部密度的启发式生成初始聚类中心方法,在此基础上设计一种准则函数自动生成聚类数目,改进了传统k-means算法.实验表明改进的算法比传统k-means算法提高了聚类效率.  相似文献   

9.
k-means聚类算法的MapReduce并行化实现   总被引:1,自引:0,他引:1  
针对k-means聚类算法特点,给出了MapReduce编程模型实现k-means聚类算法的方法,Map函数完成每个记录到聚类中心距离的计算并重新标记其属于的新聚类类别,Reduce函数根据Map函数得到的中间结果计算出新的聚类中心,供下一轮MapReduce Job使用.实验结果表明:k-means算法MapReduce并行化后部署在Hadoop集群上运行,具有较好的加速比和良好的扩展性.  相似文献   

10.
营养作为人类生活的必要前提,大量患有某种疾病患者或由于工作职业原因对不同营养成分需求各不一致,发现不同食物种类营养成分及含量间的关系具有较强的应用价值。由于各类食物类别所含食物数量不同,针对Apriori算法通过支持度和置信度来衡量关联规则的特点,为克服各类食物数量不一致容易对挖掘结果产生不良影响,设计了一种通过k-means与Apriori算法对多种食物的营养成分及含量的挖掘与分析的方法。首先根据不同食物营养成分含量采用k-means聚类算法进行聚类,将食物数据集划分出了多个互不相交的"簇",再在各"簇"内通过Apriori算法实现食物营养成分含量之间的关联规则挖掘,其结果表明使用该方法经过聚类后的同一簇内食物营养成分关联程度明显优于直接在数据集中使用Apriori算法进行挖掘,为各类人群的合理膳食及饮食健康提供了重要的参考依据。  相似文献   

11.
At present, studies on training algorithms for support vector machines (SVM) are important issues in the field of machine learning. It is a challenging task to improve the efficiency of the algorithm without reducing the generalization performance of SVM. To face this challenge, a new SVM training algorithm based on the set segmentation and k-means clustering is presented in this paper. The new idea is to divide all the original training data into many subsets, followed by clustering each subset using k-means clustering and finally train SVM using the new data set obtained from clustering centroids. Considering that the decomposition algorithm such as SVMlight is one of the major methods for solving support vector machines, the SVMlight is used in our experiments. Simulations on different types of problems show that the proposed method can solve efficiently not only large linear classification problems but also large nonlinear ones.  相似文献   

12.
以k-means算法为基础,对入侵检测技术和聚类分析技术进行了研究和分析,指出了传统k-means算法的不足,给出了针对性的改进方法.采用KDDCUP99数据集作为源数据集,对k-means以及改进后的算法进行了仿真实验,实验结果表明,改进后的k-means算法在入侵检测系统中,能够有效地提高入侵检测系统的检测率,降低误报率.  相似文献   

13.
一种用于文本聚类的改进k-means算法   总被引:2,自引:0,他引:2  
k-means是目前常用的文本聚类算法,针对其最终搜索的局部极值与全局最优解偏差较大的缺点,采用一种基于局部搜索优化的思想来改进算法,并推导出目标函数的变化公式。根据目标函数值的改变对聚类结果作再次划分后,继续k-means迭代,拓展其搜索范围。理论分析和实验结果表明修改后的算法能有效地提高聚类的质量,且计算复杂度仍与数据集文本总数呈线性变化。  相似文献   

14.
为克服k-means算法难以探测出一些局部分布稀疏不均、聚类区域的形状与大小不规整数据点集的聚类分布结构这个缺点,在半监督学习思想的指导下,针对混合属性空间区域中具有同一分布性质的带有类别标记的小样本数据集和无类别标记的大样本数据集,提出了一种基于半监督学习的k平均聚类框架。仿真实验表明:该框架经常能取得比k-means更好的聚类精度,从而说明这个半监督学习框架具有一定的有效性。  相似文献   

15.
联盟区块链系统被广泛用于金融和物流等场景。现有应用于区块链系统的实用拜占庭算法(practical Byzantine fault tolerance,PBFT)存在可扩展性较低及通信成本较高等问题,阻碍了区块链系统在大规模场景中的应用。针对上述问题,提出了一种动态多组织实用拜占庭容错算法(k-means-practical Byzantine fault tolerance,k-PBFT)。通过改进k-means算法,根据节点的时延以及节点间通信距离将节点分为多个自治组织,各组织之间通过组织代表节点进行通信。当新节点加入时,根据其特点将其分配到最合理的组织。同时,引入信誉机制以辨别系统中的诚实节点与恶意节点,从而提高系统的安全性。此外,该算法还引入节点任期机制,使区块链中每个诚实节点都有机会充当组织代表节点或主节点。实验结果表明,与PBFT算法相比,k-PBFT算法通信复杂度降低了75%;当节点数为100时,相比于PBFT算法,时延降低了210 ms,吞吐量提高了100%。在高延迟环境下,相较于基于信誉分组的PBFT改进算法,当节点数为100时,时延降低了20%,吞吐量提高了17%。  相似文献   

16.
随机选择初始聚类中心的k-means算法易使聚类陷入局部最优解、聚类结果不稳定且受孤立点影响大等问题.针对这些问题,提出了一种优化初始聚类中心的方法及孤立点排除法.该算法首先选择距离最远的两点加入初始化中心,再根据这两点将原始簇分成两个聚簇,在这两个簇中挑选方差较大的簇按照一定的规则进行分裂直至找到k个中心,初始中心的选择过程中用到孤立点排除法.在UCI数据集及人造含一定比例的噪音数据集下,通过实验比较了改进算法与其他算法的优劣.实验表明,改进后的算法不仅受孤立点的影响小、稳定性好而且准确度也高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号