基于优化初始聚类中心和轮廓系数的K-means聚类算法 |
| |
引用本文: | 孙林,刘梦含,徐久成.基于优化初始聚类中心和轮廓系数的K-means聚类算法[J].模糊系统与数学,2022(1):47-65. |
| |
作者姓名: | 孙林 刘梦含 徐久成 |
| |
作者单位: | 1. 河南师范大学计算机与信息工程学院;2. 智慧商务与物联网技术河南省工程实验室 |
| |
基金项目: | 国家自然科学基金资助项目(62076089;61772176;61976082);;河南省科技攻关项目(212102210136); |
| |
摘 要: | 传统K-means聚类算法初始聚类中心以及聚类数目K是随机确定的,聚类结果受其影响较大,这样容易造成聚类结果不稳定且准确率较低。针对上述问题,本文提出一种基于优化初始聚类中心和轮廓系数的K-means聚类算法。首先,为了选出准确的初始聚类中心,引入平均样本距离和误差平方和,构造初始聚类中心的选取方法,使得选取的初始聚类中心是样本相对集中的点,有效避免选择离群点;然后,为了选择出最佳聚类数目K,基于最近簇中心进行簇的合并,基于中位数构造轮廓系数,设计基于中位数的平均轮廓系数评价指标,判断簇合并之后的最佳K;最后,通过以上两种方法选择合理的初始聚类中心和K,进而设计了基于优化初始聚类中心和轮廓系数的K-means聚类算法。在选取的合成数据集和UCI数据集上进行测试与分析。实验结果表明,本文所提算法能够选取最优的K和唯一的初始中心点,获得了更好的聚类结果,同时也提升了聚类算法的稳定性。
|
关 键 词: | K-means算法 聚类中心 K值 中位数 轮廓系数 |
|