共查询到10条相似文献,搜索用时 470 毫秒
1.
利用传统支持向量机(SVM)对不平衡数据进行分类时,由于真实的少数类支持向量样本过少且难以被识别,造成了分类时效果不是很理想.针对这一问题,提出了一种基于支持向量机混合采样的不平衡数据分类方法(BSMS).该方法首先对经过支持向量机分类的原始不平衡数据按照所处位置的不同划分为支持向量区(SV),多数类非支持向量区(MNSV)以及少数类非支持向量区(FNSV)三个区域,并对MNSV区和FNSV区的样本做去噪处理;然后对SV区分类错误和部分分类正确且靠近决策边界的少数类样本重复进行过采样处理,直到找到测试结果最优的训练数据集;最后有选择的随机删除MNSV区的部分样本.实验结果表明:方法优于其他采样方法. 相似文献
2.
虚假评论是电商发展过程中一个无法避免的难题. 针对在线评论数据中样本类别不平衡情况,提出基于BalanceCascade-GBDT算法的虚假评论识别方法. BalanceCascade算法通过设置分类器的误报率逐步缩小大类样本空间,然后集成所有基分类器构建最终分类器. GBDT以其高准确性和可解释性被广泛应用于分类问题中,并且作为样本扰动不稳定算法,是十分合适的基分类模型. 模型基于Yelp评论数据集,采用AUC值作为评价指标,并与逻辑回归、随机森林以及神经网络算法进行对比,实验证明了该方法的有效性. 相似文献
3.
提出一种基于数据集分割的极限学习机集成算法——DS-E-ELM.该算法主要包含以下3个步骤:首先,将数据集分成互不相关的κ个子集,选择κ一1个子集组合成一个训练集,这样可以得到κ个不同的数据集;然后将新得到的κ个数据集利用极限学习机训练得到κ个分类器;最后对κ个分类器预测得到的结果通过多数投票的方法决定预测结果.通过对6个肿瘤数据集的实验证明,DS-E-ELM与单独的ELM、Bagging、Boosting等算法相比,具有更高的分类精度,且稳定性更好. 相似文献
4.
《数学的实践与认识》2019,(19)
标准的加权超限学习机在训练不平衡数据集时,只对不同类之间赋予类权值而没有对个体的样本赋予不同的权值,忽视了样本个体的差异.针对这种情况,利用标准的超限学习机估算个体样本的权值,并与类权值结合,提出了一种改进的双重加权超限学习机分类算法,算法能很好地处理分类任务中各类训练数据分布不平衡的情形.实验结果表明,双重加权超限学习机分类算法与单重加权超限学习机、无权超限学习机相比较,在提高分类精度方面取得了较好的效果. 相似文献
5.
《数学的实践与认识》2015,(19)
在实际应用中,经常遇到数据分类集合中某一类的样本数量明显少于其他类的样本数量的数据不平衡问题.在二分类数据集中,一般称样本数目多的一类数据集合为正类,样本数目少的一类数据集合为负类.为了提高算法在不平衡数据集下的分类性能,提出了首先利用K-means找出负类中心点,再根据SMOTE基本原理,得出新的数据集.通过对比新数据集和原不平衡数据集在不同算法中的分类应用,结果表明本文改进算法的分类效果得到明显提升,最后用两两配对T检验验证算法的有效性. 相似文献
6.
《数理统计与管理》2015,(5):809-820
不平衡数据是指分类问题中目标变量的某一类观测值数量远大于其他类观测值数量的数据。针对处理不平衡数据算法SMOTE及其衍生算法的不足,本文提出一种新的向上采样算法SMUP(Synthetic Minority Using Proximity of Random Forests),通过样本相似度改进SMOTE算法中的距离测量方式,提高了算法的分类精度。实验结果表明,基于SMUP算法的单分类器能有效提升少数类的分类正确率,同时解决了SMOTE对定类型特征变量距离测度不佳的难题;基于SMUP算法的组合分类器分类效果也明显优于SMOTE衍生算法;最重要的是,SMUP将连续型、混合型和定类型这三种特征变量的距离测度整合到一个统一的框架下,为实际应用提供了便利。 相似文献
7.
模糊C均值算法的改进 总被引:13,自引:0,他引:13
模糊聚类分析方法具有较强的实用性,但传统的模糊C均值算法对数据集进行分类时有均分的趋势,对于数据集中各类样本数目相差较大的情况,其聚类结果不是很理想.因此,本文对FCM算法进行了改进,使之不但能够达到更好的分类效果,同时也更加适用于样本分类不均衡的聚类问题.文中还结合具体算例进行了聚类分析,得到了理想的分类效果. 相似文献
8.
《系统科学与数学》2020,(1)
基于图的半监督分类方法近年来在模式识别和机器学习领域取得了广泛的关注.然而许多传统方法在构建邻域图时采用固定的邻域尺寸,且在模型训练过程中同等对待所有样本,忽略了样本间的差异性,从而影响了方法的效果.对此,文章提出一种基于自步学习和稀疏自表达的半监督分类方法,提取并保持数据的有判别信息的稀疏自表达结构,并基于自步学习机制提出一种新的自步学习项,将数据重要程度的软权重与硬权重相结合,来对样本进行学习.所提方法能够自适应建立数据间的关系,自动给出样本的重要程度并由易到难进行学习,且具有多类的显性非线性分类函数.几个标准数据集上的实验结果表明,所提算法具有较好的半监督分类效果. 相似文献
9.
10.
《数学的实践与认识》2017,(18)
建立了四类基于基因表达的分类器,用以将87名妇女的子宫内膜样本分成癌症患者和非癌症患者.首先利用信噪比过滤掉无关基因,然后利用主成分分析降低样本维数,再针对这四类分类器随机取75个样本作为训练样本,其余的12个样本作为测试样本,实验结果表明这四类分类器适合子宫内膜癌的分类.最后采用留一交叉验证作为评判标准,通过比较,说明5BP-ELMAN分类器是一类更适合子宫内膜癌分类的有效的肿瘤分类器. 相似文献