首页 | 本学科首页   官方微博 | 高级检索  
     

基于密度峰值的改进K-Means文本聚类算法及其并行化
作者姓名:袁逸铭  刘宏志  李海生
作者单位:北京工商大学计算机与信息工程学院
摘    要:针对K均值(K-means)聚类算法进行文本聚类时随机选取初始聚类中心点的问题,提出一种基于密度峰值进行初始聚类中心点选取的适用于文本聚类的K-means算法(DPMCSKM),为了更好地适应大规模聚类计算的要求,设计并实现了基于MapReduce的DPMCSKM并行化算法。实验结果表明,DPMCSKM算法可以有效地进行文本聚类,与K-means、基于密度峰值的快速搜索聚类算法选取初始簇中心点的K-means以及多簇球形K-means算法相比在聚类质量上均有一定的提升,在收敛速度上也有较好的表现;DPMCSKM并行化算法在可扩展性上,具有较好的加速比。

本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号