首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 32 毫秒
1.
癌症的早期诊断可以显著提高癌症患者的存活率,三分类问题就是将未知样本与已知样本进行匹配度检测,预测样本是健康状态,良性发展状态,还是癌症状态.针对复杂难分的卵巢癌蛋白质质谱数据,提出了一种基于高斯混合模型和BP神经网络的三分类预测模型.首先,去除原数据中的冗余,对其进行方差排序及交集筛选提取特征集合一,再利用高斯混合模型处理求得参数作为特征集合二,最后使用BP神经网络进行样本三分类,准确率达到72.9%.结果表明:模型可以作为卵巢癌质谱数据三分类的可选择工具.  相似文献   

2.
由于基因间的调控和相互作用表现为功能基因组合的形式,在对样本的分类能力是以特征集合的形式整体体现出来的.由此,考察由多个基因构成的基因簇作为区分常人和癌症患者的分类因素,利用独立成分分析(ICA)技术最大程度地降低基因之间的相互影响,从而获得基因簇信息.随后采用了支持向量机,依据提取出的基因簇进行分类,筛选出致病的癌症基因.为了能够得到最好的分类因素,将问题转化为稀疏表示的优化问题.此外,还利用含噪声的ICA和带松弛因子的非光滑优化模型来研究含噪声的基因图谱.最后,借助于条件概率模型,将临床结论与基因图谱相结合,对病人数据进行了筛选.  相似文献   

3.
受推荐系统在电子商务领域重大经济利益的驱动,恶意用户以非法牟利为目的实施托攻击,操纵改变推荐结果,使推荐系统面临严峻的信息安全威胁,如何识别和检测托攻击成为保障推荐系统信息安全的关键。传统支持向量机(SVM)方法同时受到小样本和数据不均衡两个问题的制约。为此,提出一种半监督SVM和非对称集成策略相结合的托攻击检测方法。首先训练初始SVM,然后引入K最近邻法优化分类面附近样本的标记质量,利用标记数据和未标记数据的混合样本集减少对标记数据的需求。最后,设计一种非对称加权集成策略,重点关注攻击样本的分类准确率,降低集成分类器对数据不均衡的敏感性。实验结果表明,本文方法有效地解决了小样本问题和数据不均衡分布问题,获得了较好的检测效果。  相似文献   

4.
模糊C均值算法的改进   总被引:13,自引:0,他引:13  
模糊聚类分析方法具有较强的实用性,但传统的模糊C均值算法对数据集进行分类时有均分的趋势,对于数据集中各类样本数目相差较大的情况,其聚类结果不是很理想.因此,本文对FCM算法进行了改进,使之不但能够达到更好的分类效果,同时也更加适用于样本分类不均衡的聚类问题.文中还结合具体算例进行了聚类分析,得到了理想的分类效果.  相似文献   

5.
建立了四类基于基因表达的分类器,用以将87名妇女的子宫内膜样本分成癌症患者和非癌症患者.首先利用信噪比过滤掉无关基因,然后利用主成分分析降低样本维数,再针对这四类分类器随机取75个样本作为训练样本,其余的12个样本作为测试样本,实验结果表明这四类分类器适合子宫内膜癌的分类.最后采用留一交叉验证作为评判标准,通过比较,说明5BP-ELMAN分类器是一类更适合子宫内膜癌分类的有效的肿瘤分类器.  相似文献   

6.
所建立的模型及所得的结论有利于利用数据库中已有的基因信息快速筛选出潜在的癌症相关基因,模型一和模型二以基因表达水平限值和差异显著性水平为分类要素,将基因分为两类.模型三利用逐步优化思想建立优化模型,确定出六组基因标签.模型四利用小波分析法去噪及相关性检验法,重新确定基因标签,包含8种特征基因,对癌症样本的检测率降低了,...  相似文献   

7.
许多机器学习的实际应用中都存在数据不平衡问题,即某类的样本数目要远小于其他类别.数据不平衡会使得分类问题中的分类面过于倾向于适应大类而忽略小类,导致测试样本被错误地判断为大类.针对该问题,文章提出了一种平衡化图半监督学习方法.该方法在能量函数中引入均衡化因子项,使得置信值不仅在图上尽量光滑且在不同类别之间也尽量均衡,有效减小了数据不均衡的不利影响,21个标准数据集上对比实验的统计分析结果表明新方法在数据不平衡时具有显著(显著性水平为0.05)优于支持向量机以及其他图半监督学习方法的分类效果.  相似文献   

8.
油气田开发中有效储层和非有效储层的样本点存在混合带时,两类储层的划分是一个难点问题.从统计学上来看,其本质是一个含噪声的小样本二分类问题,可以采用机器学习方法,充分挖掘有试油成果的样本点的数据信息.分别利用线性判别分析、支持向量机、多层感知机神经网络建立储层分类模型,利用10次10折交叉验证法进行模型评估与优选,并利用全部样本点建立了有效的储层分类模型,最后将模型推广应用到样本分布的三种不同情形.结果表明,线性支持向量机模型具有最好的分类效果和很强的泛化能力,对于区分有效储层和非有效储层是有效的,可以在油气田开发中进行推广.  相似文献   

9.
基于图的半监督分类方法近年来在模式识别和机器学习领域取得了广泛的关注.然而许多传统方法在构建邻域图时采用固定的邻域尺寸,且在模型训练过程中同等对待所有样本,忽略了样本间的差异性,从而影响了方法的效果.对此,文章提出一种基于自步学习和稀疏自表达的半监督分类方法,提取并保持数据的有判别信息的稀疏自表达结构,并基于自步学习机制提出一种新的自步学习项,将数据重要程度的软权重与硬权重相结合,来对样本进行学习.所提方法能够自适应建立数据间的关系,自动给出样本的重要程度并由易到难进行学习,且具有多类的显性非线性分类函数.几个标准数据集上的实验结果表明,所提算法具有较好的半监督分类效果.  相似文献   

10.
为在数据缺失的情况下进行心脏病诊断并获得较高的准确率,对缺失值进行处理后,利用径向基函数支持向量机,采用交叉验证和网格搜索寻找最佳惩罚参数和关联参数,对UCI Heart数据集进行分类,多分类准确率为81.89%,二分类准确率为89.61%.仿真结果表明,支持向量机网络模型性能稳定,样本追加能力强,训练时间短,分类效果好,在心脏病等医疗诊断中有很大的应用潜力.  相似文献   

11.
针对肿瘤的早期诊断,提出了一种基于提升小波变换的特征提取的方法,对肿瘤数据样本进行分析鉴别.该方法利用提升小波变换对190例肝癌(包括对照)和107例肺癌(包括对照)基因表达谱芯片数据进行处理后,提取信号的低频信息,经支持向量机训练学习,构造分类器模型,用于癌和非癌样本的区分甄别.实验结果表明,经提升小波变换提取的特征基因,送入分类器中能得到较高的分类率,且在支持向量机中选取线性核函数或径向基函数都能达到较好的分类效果.通过随机选取的20例基因表达谱芯片样本,对所建立的模型进行了测试,获得了很好的效果,因此,本文提出的方法对肿瘤的诊断有一定的应用意义.  相似文献   

12.
一种新的分类方法   总被引:5,自引:0,他引:5  
本文在属性聚类网络的基础上 ,提出了堆近邻分类方法 .通过将无监督的属性聚类加上有监督信息 ,能自适应地优选堆数 .样本所考察的近邻个数依据它所在的堆的大小 ,因而每个样本所考查的近邻的个数不是完全相等的 .这种方法可用到高维小样本的数据分类问题中 .我们将它应用到基因表达谱形式的癌症辩识问题中 ,结果表明分类性能得到了较大的提高  相似文献   

13.
将保留样本局部信息较好的三种核函数作为盖根鲍尔核的权函数,得到了三种修正的盖根鲍尔核.结合支持向量机建立分类模型,对10份UCI数据集的分类效果进行综合研究.结果表明所有修正核均比高斯核和线性核推广效果好,其中拉普拉斯修正性能更显著.  相似文献   

14.
公安案件文本语义特征提取指的是从案件文本中提取案件的作案方式等特征.从本质上说问题是一类特殊的文本分类问题.构建了基于卷积神经网络(CNN)的文本语义特征提取方法框架.构建了CNN文本分类模型;针对多标记特征提取问题,使用问题转换法结合CNN分类方法来提取特征;讨论了分类中不均衡数据带来的问题,改进了CNN模型中的损失函数.实证结果表明:使用的CNN模型对于文本分类的效果优于传统的支持向量机等分类模型;使用问题转换法中的二值相关法结合CNN模型进行多标记语义特征提取准确率较高;改进后的CNN模型更加适合于不均衡数据的分类,宏平均F1值有了显著的提升.  相似文献   

15.
为准确辨识车辆在行驶过程中可能出现的异常加减速,压线行驶,右侧超车驾驶行为,以便于及时给予驾驶员信息反馈和安全预警,使车辆保持安全的运行状态.首先通过虚拟驾驶仿真实验平台,采集驾驶行为的48种车辆运行数据对实验数据进行预处理,获得实验样本1492组;其次利用逐步回归分析对原始数据进行降维处理,并选取其中的最优回归模型获得特征参数;将提取的特征参数数据输入到BP_Adaboost多分类网络中,训练BP_Adaboost多分类网络,对上述驾驶行为进行识别;最后该模型与BP神经网络进行识别结果对比分析.结果表明模型识别率相较于BP神经网络提高了8.81%,达到92.93%,能进行更加有效的安全预警.  相似文献   

16.
在实际应用中,经常遇到数据分类集合中某一类的样本数量明显少于其他类的样本数量的数据不平衡问题.在二分类数据集中,一般称样本数目多的一类数据集合为正类,样本数目少的一类数据集合为负类.为了提高算法在不平衡数据集下的分类性能,提出了首先利用K-means找出负类中心点,再根据SMOTE基本原理,得出新的数据集.通过对比新数据集和原不平衡数据集在不同算法中的分类应用,结果表明本文改进算法的分类效果得到明显提升,最后用两两配对T检验验证算法的有效性.  相似文献   

17.
考虑到构建二叉树支持向量机时样本的分布情况对分类器推广能力具有较大影响,提出一种改进的二叉树支持向量机层次结构构建方法.以类间样本距离和带权值的类内样本距离与其标准差的比值作为类的分类度.将类间距离大且类内样本平均分布广的类最先分离.利用标准数据集,通过与不同多类分类算法比较,验证了改进的二叉树支持向量机的优越性.对双转子涡喷发动机气路部件进行应用改进的算法进行故障诊断,得到了较好的故障识别率.  相似文献   

18.
基于SVM理论的一种新的数据分类方法   总被引:2,自引:0,他引:2  
基于 SVM分类器在模式识别问题中有独特的优势 ,本文通过对标准 SVM模型的改造 ,提出了一种新的简单的数据分类方法 .理论分析和实验表明 ,该方法与标准 SVM分类方法相比具有处理大规模数据识别的能力且保持较高的样本识别率 ,节省存储空间等优势 .  相似文献   

19.
针对不平衡数据集分类问题,提出了一种基于聚类的欠采样方法.分别取不同的聚类个数,对训练集中的多数类样本进行若干次聚类,然后用聚类中心作为多数类样本,与少数类样本构成若干个新的训练集,之后用这些训练集训练分类器,剔除具有错误分类倾向的分类器,最后对分类结果进行投票.仿真实验对几种欠采样方法进行比较.实验采用16个平衡率不一的数据集进行测试.理论分析与实验结果表明:提出的基于聚类的欠采样方法能有效地改善不平衡数据集的不平衡性.  相似文献   

20.
非概率抽样在大数据时代有广阔的应用空间,但其统计推断问题仍有待研究和发展.针对这一问题,提出利用基于模型的推断方法结合配额抽样实现非概率样本的统计推断,其思路是先设定线性回归形式的超总体模型,再利用配额样本观测数据拟合模型估计未知参数,进而利用模型对非观测单元进行预测,案例分析结果显示基于超总体模型的推断方法是解决非概率样本统计推断的有力途径,具有较大的深入研究价值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号