首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
支持向量机在近十年成为机器学习的主要学习技术,而且已经成功应用到有监督学习问题中。Fung和Mangasarian利用支持向量机对于既有已标类别样本又有未知类别样本的训练集进行训练,方法主要是利用少量已标明类别的样本进行训练得到一个分类器的同时对于未标明类别的样本进行分类,使得间隔最大化。此优化问题中假定样本是精确的,而在现实生活中,样本通常带有统计误差。因此,考虑样本带有扰动信息的半监督两类分类问题,给出鲁棒半监督v-支持向量分类算法。该算法的参数v易于选择,而数值试验也表明该算法具有良好的稳定性和较好的分类结果。  相似文献   

2.
基于图的半监督分类方法近年来在模式识别和机器学习领域取得了广泛的关注.然而许多传统方法在构建邻域图时采用固定的邻域尺寸,且在模型训练过程中同等对待所有样本,忽略了样本间的差异性,从而影响了方法的效果.对此,文章提出一种基于自步学习和稀疏自表达的半监督分类方法,提取并保持数据的有判别信息的稀疏自表达结构,并基于自步学习机制提出一种新的自步学习项,将数据重要程度的软权重与硬权重相结合,来对样本进行学习.所提方法能够自适应建立数据间的关系,自动给出样本的重要程度并由易到难进行学习,且具有多类的显性非线性分类函数.几个标准数据集上的实验结果表明,所提算法具有较好的半监督分类效果.  相似文献   

3.
陶朝杰  杨进 《经济数学》2020,37(3):214-220
虚假评论是电商发展过程中一个无法避免的难题. 针对在线评论数据中样本类别不平衡情况,提出基于BalanceCascade-GBDT算法的虚假评论识别方法. BalanceCascade算法通过设置分类器的误报率逐步缩小大类样本空间,然后集成所有基分类器构建最终分类器. GBDT以其高准确性和可解释性被广泛应用于分类问题中,并且作为样本扰动不稳定算法,是十分合适的基分类模型. 模型基于Yelp评论数据集,采用AUC值作为评价指标,并与逻辑回归、随机森林以及神经网络算法进行对比,实验证明了该方法的有效性.  相似文献   

4.
受推荐系统在电子商务领域重大经济利益的驱动,恶意用户以非法牟利为目的实施托攻击,操纵改变推荐结果,使推荐系统面临严峻的信息安全威胁,如何识别和检测托攻击成为保障推荐系统信息安全的关键。传统支持向量机(SVM)方法同时受到小样本和数据不均衡两个问题的制约。为此,提出一种半监督SVM和非对称集成策略相结合的托攻击检测方法。首先训练初始SVM,然后引入K最近邻法优化分类面附近样本的标记质量,利用标记数据和未标记数据的混合样本集减少对标记数据的需求。最后,设计一种非对称加权集成策略,重点关注攻击样本的分类准确率,降低集成分类器对数据不均衡的敏感性。实验结果表明,本文方法有效地解决了小样本问题和数据不均衡分布问题,获得了较好的检测效果。  相似文献   

5.
在实际应用中,经常遇到数据分类集合中某一类的样本数量明显少于其他类的样本数量的数据不平衡问题.在二分类数据集中,一般称样本数目多的一类数据集合为正类,样本数目少的一类数据集合为负类.为了提高算法在不平衡数据集下的分类性能,提出了首先利用K-means找出负类中心点,再根据SMOTE基本原理,得出新的数据集.通过对比新数据集和原不平衡数据集在不同算法中的分类应用,结果表明本文改进算法的分类效果得到明显提升,最后用两两配对T检验验证算法的有效性.  相似文献   

6.
随着机器学习和生物信息学的快速发展,癌症亚型分类成为当前研究热点之一.根据亚型的分类,可以指导癌症的治疗和预后.近年来,许多监督学习方法被用于癌症亚型分类.考虑到高维、样本数量少和数据不均衡等特点,本文首先利用LDA进行降维,其次利用SMOTE算法均衡数据,再利用Extra-Trees模型对癌症亚型进行分类,最后基于TCGA中9种癌症25种癌症亚型的3 296个样本来验证模型的有效性.实验结果表明,利用给出的模型进行癌症亚型分类具有很好的效果.  相似文献   

7.
解决不平衡数据分类问题,在现实中有着深远的意义。马田系统利用单一的正常类别构建基准空间和测量基准尺度,并由此建立数据分类模型,十分适合不平衡数据分类问题的处理。本文以传统马田系统方法为基础,结合信噪比及F-value、G-mean等分类精度,建立了基于遗传算法的基准空间优化模型,同时运用Bagging集成化算法,构造了改进马田系统模型算法GBMTS。通过对不同分类方法及相关数据集的实验分析,表明:GBMTS算法较其他分类算法,更能够有效的处理不平衡数据的分类问题。  相似文献   

8.
机器学习是人工智能领域发展最迅速的一个分支之一,传统的机器学习方法和深度学习大都需要大量人工标注的训练数据才能发挥作用.然而,现实世界的物体种类繁多且其数量在不断增长,人工标注训练数据就变成了一项极其繁琐冗杂的工作,零样本学习的提出极大地缓解了这种情况.在零样本学习中,训练集和测试集的类别的交集是空集,因此需要在二者之间通过实现知识的迁移来完成学习,从而使得在训练集上训练得到的模型能够识别测试集上输入示例的类别标签.不同于其他大部分机器学习技术需要保证训练集包含测试集,零样本学习的原理从本质意义上让计算机模仿了人类在学习时的推理模式,使得计算机能够识别新事物.本文梳理了零样本学习的研究进展,首先概述了零样本学习的定义及其相关领域,然后重点归纳了零样本学习的发展过程,包括其基本模型及改进,存在的关键难点以及解决方式,最后探讨了零样本学习的研究现状及其未来的发展方向.  相似文献   

9.
心电信号分类是医疗保健领域的重要研究内容.针对大多数方法不能很好地降低样本数量少的类别漏诊率,以及降低预处理操作的复杂性问题,提出了一种基于改进深度残差收缩网络(IDRSN)的心电信号分类算法(即DRSL算法).首先,使用合成少数类过采样技术(SMOTE)扩充数量少的类别样本,从而解决了类不平衡问题;其次,利用改进深度残差收缩网络提取空间特征,其残差模块可以避免网络层加深造成的过拟合,压缩激励和软阈值化子网络可以提取重要局部特征并自动去除噪声;然后,通过长短期记忆网络(LSTM)提取时间特征;最后,利用全连接网络输出分类结果.在MIT-BIH心律失常数据集上的实验结果表明,该算法的分类性能优于IDRSN、DRSN、GAN+2DCNN、CNN+LSTM_ATTENTION、SE-CNN-LSTM分类算法.  相似文献   

10.
利用传统支持向量机(SVM)对不平衡数据进行分类时,由于真实的少数类支持向量样本过少且难以被识别,造成了分类时效果不是很理想.针对这一问题,提出了一种基于支持向量机混合采样的不平衡数据分类方法(BSMS).该方法首先对经过支持向量机分类的原始不平衡数据按照所处位置的不同划分为支持向量区(SV),多数类非支持向量区(MN...  相似文献   

11.
基于主题模型的半监督网络文本情感分类研究   总被引:1,自引:0,他引:1  
针对网络评论文本的情感分类问题中存在的数据的不平衡性、无标记性和不规范性问题,提出一种基于主题的闽值调整的半监督学习模型,通过从非结构化文本中提取主题特征,对少量标注情感的文本训练分类器并优化指标调整闽值,达到识别用户评论的情感倾向的目的。仿真研究证明阈值调整的半监督模型对数据非平衡性和无标记性具有较强的适应能力。在实证研究中,对酒店评论文本数据构建的文本情感分类器显示该模型可以有效预测少数类评论样本的情感极性,证实了基于主题模型的闽值调整半监督网络评论文本情感分类模型在实际问题中的适用性与可行性。  相似文献   

12.
客户信用评估是银行等金融企业日常经营活动中的重要组成部分。一般违约样本在客户总体中只占少数,而能按时还款客户样本占多数,这就是客户信用评估中常见的类别不平衡问题。目前,用于客户信用评估的方法尚不能有效解决少数类样本稀缺带来的类别不平衡。本研究引入迁移学习技术整合系统内外部信息,以解决少数类样本稀缺带来的类别不平衡问题。为了提高对来自系统外部少数类样本信息的使用效率,构建了一种新的迁移学习模型:以基于集成技术的迁移装袋模型为基础,使用两阶段抽样和数据分组处理技术分别对其基模型生成和集成策略进行改进。运用重庆某商业银行信用卡客户数据进行的实证研究结果表明:与目前客户信用评估的常用方法相比,新模型能更好地处理绝对稀缺条件下类别不平衡对客户信用评估的影响,特别对占少数的违约客户有更好的预测精度。  相似文献   

13.
针对目前半监督分类算法中未考虑缺失属性隐含信息和算法复杂度高的情况,改进了朴素信念分类,提出了两阶段半监督加权朴素信念分类模型。与直推支持向量机对比实验结果表明两阶段半监督加权朴素信念分类模型减少了分类时间,并且在其能够明确分类的样本上的正确率与直推支持向量机相当,是一种有效的不完整数据分类算法。  相似文献   

14.
针对不平衡数据集分类问题,提出了一种基于聚类的欠采样方法.分别取不同的聚类个数,对训练集中的多数类样本进行若干次聚类,然后用聚类中心作为多数类样本,与少数类样本构成若干个新的训练集,之后用这些训练集训练分类器,剔除具有错误分类倾向的分类器,最后对分类结果进行投票.仿真实验对几种欠采样方法进行比较.实验采用16个平衡率不一的数据集进行测试.理论分析与实验结果表明:提出的基于聚类的欠采样方法能有效地改善不平衡数据集的不平衡性.  相似文献   

15.
针对半监督分类问题,提出了基于凸绝对值不等式的半监督最小二乘支持向量机.传统的半监督支持向量机鲁棒性不强、效率不高,针对这些不足,利用凸绝对值不等式将平面分为两个有重叠的半平面,通过极小化重叠部分以及采用最小二乘支持向量机的思想处理无标签点,提高分类准确率,结果具有一定的鲁棒性.在8个数据集上进行了数值实验,说明了所提出的半监督分类算法的有效性.  相似文献   

16.
数据描述又称为一类分类方法,用于描述现有数据的分布特征,以研究待测试数据是否与该分布相吻合.首先简要叙述了基于核方法的数据描述原理,指出:选择适当的核函数以及与之对应的参数,数据描述可应用于模式聚类中,并且这种聚类方法具有边界紧致、易剔除噪声的优势.针对基于数据描述的聚类方法在确定类别数目和具体样本类别归属上所存在的问题,提出了基于搜索的解决方法,理论分析和实例计算都验证了该方法的可行性.最后将该聚类算法应用到企业关系评价中,取得了较为合理的结果.  相似文献   

17.
模糊C均值算法的改进   总被引:13,自引:0,他引:13  
模糊聚类分析方法具有较强的实用性,但传统的模糊C均值算法对数据集进行分类时有均分的趋势,对于数据集中各类样本数目相差较大的情况,其聚类结果不是很理想.因此,本文对FCM算法进行了改进,使之不但能够达到更好的分类效果,同时也更加适用于样本分类不均衡的聚类问题.文中还结合具体算例进行了聚类分析,得到了理想的分类效果.  相似文献   

18.
考虑求解一类半监督距离度量学习问题. 由于样本集(数据库)的规模与复杂性的激增, 在考虑距离度量学习问题时, 必须考虑学习来的距离度量矩阵具有稀疏性的特点. 因此, 在现有的距离度量学习模型中, 增加了学习矩阵的稀疏约束. 为了便于模型求解, 稀疏约束应用了Frobenius 范数约束. 进一步, 通过罚函数方法将Frobenius范数约束罚到目标函数, 使得具有稀疏约束的模型转化成无约束优化问题. 为了求解问题, 提出了正定矩阵群上加速投影梯度算法, 克服了矩阵群上不能直接进行线性组合的困难, 并分析了算法的收敛性. 最后通过UCI数据库的分类问题的例子, 进行了数值实验, 数值实验的结果说明了学习矩阵的稀疏性以及加速投影梯度算法的有效性.  相似文献   

19.
半监督学习是近年来机器学习领域中的一个重要研究方向,其监督信息的质量对半监督聚类的结果影响很大,主动学习高质量的监督信息很有必要.提出一种纠错式主动学习成对约束的方法,该算法通过寻找聚类算法本身不能发现的成对约束监督信息,将其引入谱聚类算法,并利用该监督信息来调整谱聚类中点与点之间的距离矩阵.采用双向寻找的方法,将点与点间距离进行排序,使得学习器即使在接收到没有标记的数据时也能进行主动学习,实现了在较少的约束下可得到较好的聚类结果.同时,该算法降低了计算复杂度,解决了聚类过程中成对约束的奇异问题.通过在UCI基准数据集以及人工数据集的实验表明,算法的性能好于相关对比算法,并优于采用随机选取监督信息的谱聚类性能.  相似文献   

20.
考虑求解一类半监督距离度量学习问题.由于样本集(数据库)的规模与复杂性的激增,在考虑距离度量学习问题时,必须考虑学习来的距离度量矩阵具有稀疏性的特点.因此,在现有的距离度量学习模型中,增加了学习矩阵的稀疏约束.为了便于模型求解,稀疏约束应用了Frobenius范数约束.进一步,通过罚函数方法将Frobenius范数约束罚到目标函数,使得具有稀疏约束的模型转化成无约束优化问题.为了求解问题,提出了正定矩阵群上加速投影梯度算法,克服了矩阵群上不能直接进行线性组合的困难,并分析了算法的收敛性.最后通过UCI数据库的分类问题的例子,进行了数值实验,数值实验的结果说明了学习矩阵的稀疏性以及加速投影梯度算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号