基于密度峰值的改进K-Means文本聚类算法及其并行化期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于密度峰值的改进K-Means文本聚类算法及其并行化

作者姓名：	袁逸铭刘宏志李海生

作者单位：	北京工商大学计算机与信息工程学院

摘要：	针对K均值(K-means)聚类算法进行文本聚类时随机选取初始聚类中心点的问题,提出一种基于密度峰值进行初始聚类中心点选取的适用于文本聚类的K-means算法(DPMCSKM),为了更好地适应大规模聚类计算的要求,设计并实现了基于MapReduce的DPMCSKM并行化算法。实验结果表明,DPMCSKM算法可以有效地进行文本聚类,与K-means、基于密度峰值的快速搜索聚类算法选取初始簇中心点的K-means以及多簇球形K-means算法相比在聚类质量上均有一定的提升,在收敛速度上也有较好的表现;DPMCSKM并行化算法在可扩展性上,具有较好的加速比。
本文献已被 CNKI 等数据库收录！