首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 562 毫秒
1.
许多机器学习的实际应用中都存在数据不平衡问题,即某类的样本数目要远小于其他类别.数据不平衡会使得分类问题中的分类面过于倾向于适应大类而忽略小类,导致测试样本被错误地判断为大类.针对该问题,文章提出了一种平衡化图半监督学习方法.该方法在能量函数中引入均衡化因子项,使得置信值不仅在图上尽量光滑且在不同类别之间也尽量均衡,有效减小了数据不均衡的不利影响,21个标准数据集上对比实验的统计分析结果表明新方法在数据不平衡时具有显著(显著性水平为0.05)优于支持向量机以及其他图半监督学习方法的分类效果.  相似文献   

2.
根据临床收录的肿瘤基因表达谱数据,可以利用分类器进行肿瘤亚型分类.由于基因表达谱数据样本小、维度高,难以提取有效特征,分类效果往往不好,而且很容易过拟合.针对这些问题,研究利用自编码器对特征基因进行降维,并构建多尺度的神经网络进行学习分类,综合考虑不同尺度的特征,提出A-CNNs网络,不仅解决了高维样本难以处理的问题,且有效避免了纵向加深神经网络带来的过拟合,得到了较高的平均分类精度,并与其他机器学习方法进行对比实验,实验证明所构建的分类模型可以取得较佳的分类效果.  相似文献   

3.
《数理统计与管理》2021,40(1):93-104
针对高维数据"维数灾难"问题,降维是最典型的处理方式之一。降维技术不仅可以减弱"维数灾难"的负面影响,而且能够剔除高维数据中的冗余特征,从而提升高维数据回归、分类等任务的效率。高维数据通常呈现出复杂或非线性结构,恰当的降维方法可以有效地将高维特征数据投影至低维空间,以实现原始数据的非线性特征提取。本文尝试使用无监督学习模型稀疏自编码网络对金融高维数据进行非线性特征提取,将提取到的特征作为有监督学习模型BP神经网络的输入以预测指数收益率。更进一步地,为了验证稀疏自编码算法在特征提取方面的优势与有效性,本文引入稀疏主成分模型进行对比分析。实证分析显示:本文所使用的稀疏自编码网络能够较好地提取非线性特征并进行预测,其预测精度优于以稀疏主成分为代表的线性降维方法。  相似文献   

4.
在激光超声缺陷检测技术中,不同类型缺陷采样信号的准确分类至关重要.针对激光超声表面波实验采样信号高维小样本的特点,采用了一种有监督学习的Kohonen神经网络(S_Kohonen)自适应分类方法.在S_Kohonen网络自组织学习的过程中,通过改进网络的学习率提高了网络的收敛速度.通过采用一种无需邻域半径判断的自适应权值调整方式来实现竞争层神经元权值不同程度的调整,从而更有效的表征输入样本的分布特征.通过对不同类型缺陷探测样本的多次实验,验证了所述方法具有良好的分类预测效果,多次交叉验证分类正确率均能达到100%.  相似文献   

5.
模糊粗糙集作为处理不确定性信息的有效工具,已广泛应用于特征选择中。然而当数据分布密度差别较大时,传统模糊粗糙近似不能有效度量样本的隶属度,且大多特征评价函数仅从代数或信息单一视角构造。针对以上问题,提出了一种基于模糊邻域相对依赖互信息的特征选择方法。首先,为克服传统模糊粗糙近似对数据分布敏感的缺陷,引入相对距离计算模糊相似关系,同时考虑模糊邻域粒度结构,提出了模糊邻域相对依赖度,从代数观度量数据的不确定性。然后,基于相对粒度结构提出了模糊邻域相对互信息,并与模糊邻域相对依赖度结合构造出一种新的特征评价函数——模糊邻域相对依赖互信息,将代数观和信息观结合进行特征评价。最后,设计了一种基于模糊邻域相对依赖互信息的特征选择算法(FNRDI)。通过与其他算法在9个公共数据集上进行实验对比分析,结果表明所提算法可有效消除冗余特征且提高数据的分类精度。  相似文献   

6.
本文在数据驱动模式的指导下,以药物动力学中的复杂数据为背景,利用具有Markov性的流行学习来构造半监督分类算法,并对生物结构与活性关系进行统计建模.模拟研究表明,当存在某种流行结构时,流行学习算法能对具有不同模式的数据进行更好地分类.通过对不同化合物的生物结构活性关系的三个真实数据集进行分析,与典型算法相比,基于不同核函数的流行学习分类算法能充分利用有标签的样本点和无标签的样本点的信息来对样本进行分类,并产生更稳健、更精确的分类结果.  相似文献   

7.
针对高校科研水平深度学习网络训练评价中存在评价特征同质化现象,造成评估结果精度不高的问题,提出稀疏交叉熵粗糙集双向受限制深度玻尔兹曼机(DDRBM-DNNS)高校科研能力评估方法.首先,考虑采用受限制玻尔兹曼机(RBM)和稀疏交叉熵惩罚参数对深度学习网络进行改进,实现深度学习网络特征训练同质化现象的削弱;同时,针对输入数据的预处理问题,考虑基于粗糙集的前置预处理方式实现,在维持数据输入信息完整前提下,实现输入样本数据的有效归约,进而实现样本处理量的简化,有利于深度学习网络收敛过程的提速;最后,利用所提算法对高校科研水平进行评价,实验数据显示,所提评价模型具备更高的评估精度和更快运算效率.  相似文献   

8.
本文在竞争风险数据下提出一种灵活的含变系数的可加可乘的子分布风险率模型.通过对删失时间的风险函数建立Cox比例风险模型,得到调整后的与协变量相依的权重,在新权重下建立估计方程来估计模型参数,并获得了估计的大样本性质,同时提出了模型中协变量的时变效应的检验方法.通过数值模拟验证了所提方法的有限样本性质,结果表明所提方法可以大大降低估计偏差.最后,分析了一组淋巴滤泡细胞的竞争风险数据集来展示所提方法的实际应用效果.  相似文献   

9.
传统的聚类方法由于无法提取样本和变量间的局部对应关系,并且当数据具有高维性和稀疏性时表现不佳,因此学者们提出了双向聚类,基于样本和变量间的局部关系,同时对样本和变量进行聚类,形成一系列子矩阵的聚类结果。近年来,双向聚类发展迅速,在基因分析、文本聚类、推荐系统等领域应用广泛。首先,对双向聚类方法进行梳理与归纳,重点阐述稀疏双向聚类、谱双向聚类和信息双向聚类三类方法,分析它们之间的区别和联系,并且介绍这三类方法在多源数据的整合分析、多层聚类、半监督学习以及集成学习上的发展现状和趋势;其次,重点介绍双向聚类在基因分析、文本聚类、推荐系统等领域的应用研究情况;最后,结合大数据时代的数据特征和双向聚类存在的问题,展望双向聚类未来的研究方向。  相似文献   

10.
考虑求解一类半监督距离度量学习问题. 由于样本集(数据库)的规模与复杂性的激增, 在考虑距离度量学习问题时, 必须考虑学习来的距离度量矩阵具有稀疏性的特点. 因此, 在现有的距离度量学习模型中, 增加了学习矩阵的稀疏约束. 为了便于模型求解, 稀疏约束应用了Frobenius 范数约束. 进一步, 通过罚函数方法将Frobenius范数约束罚到目标函数, 使得具有稀疏约束的模型转化成无约束优化问题. 为了求解问题, 提出了正定矩阵群上加速投影梯度算法, 克服了矩阵群上不能直接进行线性组合的困难, 并分析了算法的收敛性. 最后通过UCI数据库的分类问题的例子, 进行了数值实验, 数值实验的结果说明了学习矩阵的稀疏性以及加速投影梯度算法的有效性.  相似文献   

11.
考虑求解一类半监督距离度量学习问题.由于样本集(数据库)的规模与复杂性的激增,在考虑距离度量学习问题时,必须考虑学习来的距离度量矩阵具有稀疏性的特点.因此,在现有的距离度量学习模型中,增加了学习矩阵的稀疏约束.为了便于模型求解,稀疏约束应用了Frobenius范数约束.进一步,通过罚函数方法将Frobenius范数约束罚到目标函数,使得具有稀疏约束的模型转化成无约束优化问题.为了求解问题,提出了正定矩阵群上加速投影梯度算法,克服了矩阵群上不能直接进行线性组合的困难,并分析了算法的收敛性.最后通过UCI数据库的分类问题的例子,进行了数值实验,数值实验的结果说明了学习矩阵的稀疏性以及加速投影梯度算法的有效性.  相似文献   

12.
现有一类分类算法通常采用经典欧氏测度描述样本间相似关系,然而欧氏测度不能较好地反映一些数据集样本的内在分布结构,从而影响这些方法对数据的描述能力.提出一种用于改善一类分类器描述性能的高维空间一类数据距离测度学习算法,与已有距离测度学习算法相比,该算法只需提供目标类数据,通过引入样本先验分布正则化项和L1范数惩罚的距离测度稀疏性约束,能有效解决高维空间小样本情况下的一类数据距离测度学习问题,并通过采用分块协调下降算法高效的解决距离测度学习的优化问题.学习的距离测度能容易的嵌入到一类分类器中,仿真实验结果表明采用学习的距离测度能有效改善一类分类器的描述性能,特别能够改善SVDD的描述能力,从而使得一类分类器具有更强的推广能力.  相似文献   

13.
随着机器学习和生物信息学的快速发展,癌症亚型分类成为当前研究热点之一.根据亚型的分类,可以指导癌症的治疗和预后.近年来,许多监督学习方法被用于癌症亚型分类.考虑到高维、样本数量少和数据不均衡等特点,本文首先利用LDA进行降维,其次利用SMOTE算法均衡数据,再利用Extra-Trees模型对癌症亚型进行分类,最后基于TCGA中9种癌症25种癌症亚型的3 296个样本来验证模型的有效性.实验结果表明,利用给出的模型进行癌症亚型分类具有很好的效果.  相似文献   

14.
为了更好地利用晶体硅片资源,实现对晶体硅片准确高效的分类,提出了一种改进的ResNet34卷积神经网络,且用于对晶体硅片高清图像进行分类.通过拍摄晶体硅片高清图像建立自有数据集,并对其进行离线扩充来有效扩大数据集.基于ResNet34网络建立分类模型,采取自适应矩估计权重衰减优化算法(AdamW)来提高ResNet34网络的泛化能力,同时将注意力机制的方法融入到ResNet34网络中增强模型的特征提取能力,之后将改进的模型载入到晶体硅片数据集上训练,实验结果发现,所提W-ResNet34+SC-SEAM分类模型的准确率可达99.91%,比在仅利用ResNet34模型分类结果上提高了2.68%的准确率,实现了对晶体硅片的精确分类,证明了所提分类方法是可行的.  相似文献   

15.
稀疏表示是近年来新兴的一种数据表示方法,是对人类大脑皮层编码机制的模拟。稀疏表示以其良好的鲁棒性、抗干扰能力、可解释性和判别性等优势,广泛应用于模式识别领域。基于稀疏表示的分类器在人脸识别领域取得了令人惊喜的成就,它将训练样本看成字典,寻求测试样本在字典下的最稀疏的表示,即用尽可能少的训练样本的线性组合来重构测试样本。但是经典的基于稀疏表示的分类器没有考虑训练样本的类别信息,以致被选中的训练样本来自许多类,不利于分类,因此基于组稀疏的分类器被提出。组稀疏方法考虑了训练样本的类别相似性,其目的是用尽可能少类别的训练样本来表示测试样本,然而这类方法的缺点是同类的训练样本或者同时被选中或者同时被丢弃。在实际中,人脸受到光照、表情、姿势甚至遮挡等因素的影响,样本之间关系比较复杂,因此最后介绍局部加权组结构稀疏表示方法。该方法尽量用来自于与测试样本相似的类的训练样本和来自测试样本邻域的训练样本来表示测试样本,以减轻不相关类的干扰,并使得表示更稀疏和更具判别性。  相似文献   

16.
现有的子空间聚类方法以数据全局线性分布为前提,利用先验约束估计未标记数据点的低维子空间,并将其聚类到相应组中,对非线性结构的数据处理存在一定缺陷.受启发于深度学习以其强大的非线性学习表征能力在众多应用中取得巨大成功,文章在数据表示中加入成对约束,并运用流形正则化理论,采用k近邻构造全局相似度矩阵,通过与自编码器的联合学习,提出基于流形正则化与成对约束的深度半监督谱聚类算法(MPAE).该算法一方面在学习数据的低维表示时同时保留数据的可重构性和局部流形结构的全局特征,另一方面将已知样本间的成对约束信息融入目标优化设计,使学习到的低维特征更具有判别性,这在很大程度上提高了所得算法的聚类性能.实验结果表明文章算法能够取得理想的聚类结果.  相似文献   

17.
基于主题模型的半监督网络文本情感分类研究   总被引:1,自引:0,他引:1  
针对网络评论文本的情感分类问题中存在的数据的不平衡性、无标记性和不规范性问题,提出一种基于主题的闽值调整的半监督学习模型,通过从非结构化文本中提取主题特征,对少量标注情感的文本训练分类器并优化指标调整闽值,达到识别用户评论的情感倾向的目的。仿真研究证明阈值调整的半监督模型对数据非平衡性和无标记性具有较强的适应能力。在实证研究中,对酒店评论文本数据构建的文本情感分类器显示该模型可以有效预测少数类评论样本的情感极性,证实了基于主题模型的闽值调整半监督网络评论文本情感分类模型在实际问题中的适用性与可行性。  相似文献   

18.
本文研究固定效应变系数空间自回归面板数据模型的空间效应检验问题,利用基于局部线性方法的profile似然估计技术,构造了广义似然比检验统计量,并提出利用一类基于残差的bootstrap方法求取检验p值,最后数值模拟表明所提方法在有限样本下有较好表现.  相似文献   

19.
蒋翠清  梁坤  丁勇  段锐 《运筹与管理》2017,26(2):135-139
网络借贷环境下基于Adaboost的信用评价方法具有较高的基分类器分歧度和样本误分代价。现有研究没有考虑分歧度和误分代价对基分类器样本权重的影响,从而降低了网络借贷信用评价结果的有效性。为此,提出一种基于改进Adaboost的信用评价方法。该方法根据基分类器的误分率,样本在不同基分类器上分类结果的分歧程度,以及样本的误分代价等因素,调整Adaboost模型的样本赋权策略,使得改进后的Adaboost模型能够对分类困难样本和误分代价高的样本实施有针对性的学习,从而提高网络借贷信用评价结果的有效性。基于拍拍贷平台数据的实验结果表明,提出的方法在分类精度和误分代价等方面显著优于传统的基于Adaboost的信用评价方法。  相似文献   

20.
本文基于深度函数介绍了一类仿射等价的多元中位数.证明了所提的中位数的影响函数是有界的,且其渐近增加崩溃点能达到0.5.给出了Geman-McClure中位数的相合性和渐近正态性.模拟研究说明了所提中位数的有限样本表现,且能同时实现高的有效性和稳健性.最后,应用所提的方法分析了一个实际数据.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号