基于密度峰值聚类算法的自适应加权过采样算法 |
| |
作者姓名: | 穆伟蒙 宋燕 窦军 |
| |
作者单位: | 1. 上海理工大学理学院;2. 上海理工大学光电信息与计算机工程学院 |
| |
基金项目: | 国家自然科学基金(62073233,61873169); |
| |
摘 要: | 不平衡数据是监督学习中的一个挑战性问题。传统的分类器通常偏向多数类,忽略了少数类,而少数类样本往往包含很多重要信息,需要得到更多的关注。针对此问题,提出了一种基于密度峰值聚类算法的过采样技术(An Oversampling Technique based on Density Peak Clustering, DPCOTE)。DPCOTE的主要思想是:(1)利用k近邻算法去除多数类和少数类噪声样本;(2)基于密度峰值聚类算法(Density peaks clustering algorithm, DPC)中的2个重要因子,即样本局部密度和样本到局部密度较高的最近邻的距离,来为每个少数类样本分配采样权重;(3)对于DPC算法中涉及到的距离,使用马氏距离来度量,以消除样本特征量纲不一致问题。最后,在12个UCI数据集上进行了对比实验,用不同的指标评价分类结果,结果表明本文提出的算法在处理不平衡分类问题时优于其它过采样方法。
|
关 键 词: | 不平衡数据 k近邻算法 密度峰值聚类算法 马氏距离 |
|
|