首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对肿瘤的早期诊断,提出了一种基于提升小波变换的特征提取的方法,对肿瘤数据样本进行分析鉴别.该方法利用提升小波变换对190例肝癌(包括对照)和107例肺癌(包括对照)基因表达谱芯片数据进行处理后,提取信号的低频信息,经支持向量机训练学习,构造分类器模型,用于癌和非癌样本的区分甄别.实验结果表明,经提升小波变换提取的特征基因,送入分类器中能得到较高的分类率,且在支持向量机中选取线性核函数或径向基函数都能达到较好的分类效果.通过随机选取的20例基因表达谱芯片样本,对所建立的模型进行了测试,获得了很好的效果,因此,本文提出的方法对肿瘤的诊断有一定的应用意义.  相似文献   

2.
癌症的早期诊断可以显著提高癌症患者的存活率,三分类问题就是将未知样本与已知样本进行匹配度检测,预测样本是健康状态,良性发展状态,还是癌症状态.针对复杂难分的卵巢癌蛋白质质谱数据,提出了一种基于高斯混合模型和BP神经网络的三分类预测模型.首先,去除原数据中的冗余,对其进行方差排序及交集筛选提取特征集合一,再利用高斯混合模型处理求得参数作为特征集合二,最后使用BP神经网络进行样本三分类,准确率达到72.9%.结果表明:模型可以作为卵巢癌质谱数据三分类的可选择工具.  相似文献   

3.
心电信号分类是医疗保健领域的重要研究内容.针对大多数方法不能很好地降低样本数量少的类别漏诊率,以及降低预处理操作的复杂性问题,提出了一种基于改进深度残差收缩网络(IDRSN)的心电信号分类算法(即DRSL算法).首先,使用合成少数类过采样技术(SMOTE)扩充数量少的类别样本,从而解决了类不平衡问题;其次,利用改进深度残差收缩网络提取空间特征,其残差模块可以避免网络层加深造成的过拟合,压缩激励和软阈值化子网络可以提取重要局部特征并自动去除噪声;然后,通过长短期记忆网络(LSTM)提取时间特征;最后,利用全连接网络输出分类结果.在MIT-BIH心律失常数据集上的实验结果表明,该算法的分类性能优于IDRSN、DRSN、GAN+2DCNN、CNN+LSTM_ATTENTION、SE-CNN-LSTM分类算法.  相似文献   

4.
基于原始时间属性下的时态数据难以发现规律的特点,文章构建了时态支持向量机模型,该模型通过对输入时态数据的粒度变换,获得多个分类模型,从而能够发现多种规律.在此基础上,结合时态型操纵特征构建了股票操纵模式发现模型,最后在证监会披露的操纵股票真实数据上进行数值实验,实验发现细时态粒度数据的分类模型在识别一般操纵和严重操纵上效果较好,粗时态粒度数据的分类模型在识别未被操纵或轻微操纵上效果较好.在未知数据集上实验,该模型可以有效识别不同程度操纵股票的模式,其中1个时态粒度数据下添加市场差异特征的模型表现最好,识别准确率达到了98.25%.文章验证了在不同时态粒度输入下,时态支持向量机模型能够发现在原始数据上不能发现的模式特征,这对解决一些复杂规律在原始特征下难以被发现的问题具有重要借鉴意义.  相似文献   

5.
油气田开发中有效储层和非有效储层的样本点存在混合带时,两类储层的划分是一个难点问题.从统计学上来看,其本质是一个含噪声的小样本二分类问题,可以采用机器学习方法,充分挖掘有试油成果的样本点的数据信息.分别利用线性判别分析、支持向量机、多层感知机神经网络建立储层分类模型,利用10次10折交叉验证法进行模型评估与优选,并利用全部样本点建立了有效的储层分类模型,最后将模型推广应用到样本分布的三种不同情形.结果表明,线性支持向量机模型具有最好的分类效果和很强的泛化能力,对于区分有效储层和非有效储层是有效的,可以在油气田开发中进行推广.  相似文献   

6.
结合BP神经网络模型和自回归求和滑动平均(ARIMA)模型对城市道路交通短时区间流量进行预测.影响交通流的因素有很多,难以一一量化,但这些因素都可以由线性自相关结构和非线性结构结合线性组合得到.而BP神经网络对非线性关系有很好的拟合效果,ARIMA模型则具有良好的线性拟合能力.在训练模型时,先用ARIMA模型拟合训练集,与原始数据作差得到一组残差;用BP神经网络模型拟合残差;将两个模型结合得到组合模型.将2017年7月1日7:00到2017年7月1日18:00期间,贵阳市某个路口断面所采集的过车数据作为训练集,建立ARIMA模型和BP神经网络模型以及组合模型,预测2017年7月1日18:00到2017年7月1日19:00的短时交通流.过车数据统计时间间隔为5min,则训练集共有有效数据132组,测试集的有效数据为12组.分别用三类误差分析指标比较三个模型的拟合、预测效果,结果显示组合模型的预测效果比两个模型单独使用的预测效果更准确.  相似文献   

7.
针对人工识别的效率低及单一卷积神经网络提取特征的遗漏问题,提出了多模型加权融合机制的石墨纯度识别算法.在自建小样本数据集上,进行离线扩充和在线增强,提高模型的泛化能力,减少深层CNN的过拟合问题;结合迁移学习,利用优化的AlexNet和ResNet50构建双通道卷积神经网络,提取石墨图像的深层次特征,并将两者的特征进行...  相似文献   

8.
基于贝叶斯逐步判别法构建入侵检测模型,将入侵检测转化为一个分类判别问题,基于步进式引入的方法淘汰冗余的特征变量,能够在保障判别效果的前提下有效降低原分类判别函数的计算复杂度.使用KDD CUP99数据中10%数据集作为实验数据,以常见的拒绝服务攻击(DoS攻击)为例创建具体的模型实例,实验结果表明,模型对于样本内连接记录的回代判对率和样本外连接记录的检测正确率均较高.  相似文献   

9.
建立了四类基于基因表达的分类器,用以将87名妇女的子宫内膜样本分成癌症患者和非癌症患者.首先利用信噪比过滤掉无关基因,然后利用主成分分析降低样本维数,再针对这四类分类器随机取75个样本作为训练样本,其余的12个样本作为测试样本,实验结果表明这四类分类器适合子宫内膜癌的分类.最后采用留一交叉验证作为评判标准,通过比较,说明5BP-ELMAN分类器是一类更适合子宫内膜癌分类的有效的肿瘤分类器.  相似文献   

10.
负二项回归模型的推广及其在分类费率厘定中的应用   总被引:1,自引:0,他引:1  
分类费率厘定中最常使用的模型之一是泊松回归模型,但当损失次数数据存在过离散特征时,通常会采用负二项回归模型。本文将两参数的负二项回归模型推广到了三参数情况,并用它来解决分类费率厘定中的过离散(over-dispersion)问题。本文通过对一组汽车保险损失数据的拟合表明,三参数的负二项分布回归模型可以有效改善对实际损失数据的拟合效果。  相似文献   

11.
神经网络用于样本分类是一个新的研究课题,本文利用自组织特征映射神经网络,对生态城市进行分类.计算实例表明,用自组织特征映射神经网络用于分类是准确和可靠的.  相似文献   

12.
利用传统支持向量机(SVM)对不平衡数据进行分类时,由于真实的少数类支持向量样本过少且难以被识别,造成了分类时效果不是很理想.针对这一问题,提出了一种基于支持向量机混合采样的不平衡数据分类方法(BSMS).该方法首先对经过支持向量机分类的原始不平衡数据按照所处位置的不同划分为支持向量区(SV),多数类非支持向量区(MN...  相似文献   

13.
采用统计检验的方法对基因表达数据的特征选取和冗余去除展开研究,为此提出了相应模型及算法,与已有文献中的模型与算法相比较,该模型所提方法思路直观,易于理解,算法构造简单,且运行效率高.数值实验选取3个两分类基因表达数据集,实验结果表明该方法对特征选取和冗余去除均有较好的效果.在此基础上,采用类中心距离法对选取的特征基因进行了分类实验,结果进一步表明,本文提出的方法对两分类基因表达数据具有较高的分类精确度.  相似文献   

14.
一种新的分类方法   总被引:5,自引:0,他引:5  
本文在属性聚类网络的基础上 ,提出了堆近邻分类方法 .通过将无监督的属性聚类加上有监督信息 ,能自适应地优选堆数 .样本所考察的近邻个数依据它所在的堆的大小 ,因而每个样本所考查的近邻的个数不是完全相等的 .这种方法可用到高维小样本的数据分类问题中 .我们将它应用到基因表达谱形式的癌症辩识问题中 ,结果表明分类性能得到了较大的提高  相似文献   

15.
陶朝杰  杨进 《经济数学》2020,37(3):214-220
虚假评论是电商发展过程中一个无法避免的难题. 针对在线评论数据中样本类别不平衡情况,提出基于BalanceCascade-GBDT算法的虚假评论识别方法. BalanceCascade算法通过设置分类器的误报率逐步缩小大类样本空间,然后集成所有基分类器构建最终分类器. GBDT以其高准确性和可解释性被广泛应用于分类问题中,并且作为样本扰动不稳定算法,是十分合适的基分类模型. 模型基于Yelp评论数据集,采用AUC值作为评价指标,并与逻辑回归、随机森林以及神经网络算法进行对比,实验证明了该方法的有效性.  相似文献   

16.
为准确辨识车辆在行驶过程中可能出现的异常加减速,压线行驶,右侧超车驾驶行为,以便于及时给予驾驶员信息反馈和安全预警,使车辆保持安全的运行状态.首先通过虚拟驾驶仿真实验平台,采集驾驶行为的48种车辆运行数据对实验数据进行预处理,获得实验样本1492组;其次利用逐步回归分析对原始数据进行降维处理,并选取其中的最优回归模型获得特征参数;将提取的特征参数数据输入到BP_Adaboost多分类网络中,训练BP_Adaboost多分类网络,对上述驾驶行为进行识别;最后该模型与BP神经网络进行识别结果对比分析.结果表明模型识别率相较于BP神经网络提高了8.81%,达到92.93%,能进行更加有效的安全预警.  相似文献   

17.
针对基因表达谱信息基因提取的问题,使用Wilcoxon秩和检验方法进行"无关基因"的剔除,基于高低水平基因表达的特点,建立了关于高/低表达水平的双线性回归模型,基于残差分析提取了19个特征基因.使用启发式宽度优先搜索算法搜索最优基因子集,确定结肠癌的基因"标签",运用支持向量机对分类效果进行检验,分类效果良好.  相似文献   

18.
主要研究垃圾文本识别问题,利用苹果手机评论文本特征向量建立了SVM分类模型对垃圾文本进行识别,并与BP神经网络判别模型结果进行对比,得出苹果手机前400组训练样本的判别正确率为71%,后196组测试样本的判别正确率为70.12%.故得到,影响垃圾观点文本识别效果的主要原因为:1)评论文本的特征项的提取和文本特征空间向量求解.2)判别分类方法的选择,其中SVM文本识别效果最优.  相似文献   

19.
随着机器学习和生物信息学的快速发展,癌症亚型分类成为当前研究热点之一.根据亚型的分类,可以指导癌症的治疗和预后.近年来,许多监督学习方法被用于癌症亚型分类.考虑到高维、样本数量少和数据不均衡等特点,本文首先利用LDA进行降维,其次利用SMOTE算法均衡数据,再利用Extra-Trees模型对癌症亚型进行分类,最后基于TCGA中9种癌症25种癌症亚型的3 296个样本来验证模型的有效性.实验结果表明,利用给出的模型进行癌症亚型分类具有很好的效果.  相似文献   

20.
马田系统是以马氏距离为测量尺度,通过选取正常样本构建马氏空间,对多元系统进行诊断和预测的分类技术。马氏距离对样本数据的变化非常敏感,因此用于构建马氏空间的正常样本的数据质量直接影响到分类的准确率。实际应用中正常样本的选取大多依据主观经验判断,缺乏客观规范的选择机制。本文提出基于控制图的马氏空间生成机理,先由专家选取的正常样本构建初始马氏空间,再以每个正常样品在初始马氏空间和对应的缩减马氏空间上的马氏距离增量作为新的测量尺度,以此建立单值控制图,利用控制图稳定性判定规则剔除异常数据,从而得到稳定状态的马氏空间。实验分析结果表明该方法的有效性且提高了马田系统分类的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号