摘 要: | 针对传统分类器在不平衡数据集上性能降低的问题,提出一种基于FCM的簇内欠采样算法(Fuzzy C-means clustering Based Under Sampling In Clusters, FCMUSIC)。使用模糊c-均值聚类算法(Fuzzy C-Means clustering, FCM)将多数类样本划分成若干簇,在每个簇内以类别不平衡比率(imbalanced ratio, IR)的倒数作为采样倍率,得到新的多数类样本并与少数类样本合并,形成新的平衡样本集,结合KNN和Random Forest分类器进行分类。分析在5组不平衡数据集上的分类结果,当使用KNN分类器时,改进后的算法的F1值平均提高了6.65%,G-mean值平均提高了7.75%;使用Random Forest分类器时,F1值平均提高了5.31%,G-mean值平均提高了6.07%。表明FCMUSIC算法能够有效地提升传统分类器对不平衡数据集的分类性能。
|