首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
陈国华  夏之宁  陆瑶 《化学学报》2010,68(11):1137-1142
选取25条CPP和16条非CPP作为训练集样本, 以61条CPP和21条非CPP为预测集样本. 利用氨基酸的z-Scale对肽链进行编码, 分别使用原始72个自交叉协方差变量和它们的主成分矢量进行线性判别(LDA)和支持矢量机(SVM)分类研究. 当采用LDA方法时, 对于训练集的预测以及它们的留一法交互检验, 均获得比较优越的结果, 但对预测集的预测总的识别率的最优结果仅为57.3%. 分别利用主成分和原始变量集作为SVM的输入建立的非线性识别模型, 对训练集的总识别率分别为85.4%和100%, 留一法交互检验的总识别率分别为80.5%和75.6%, 对预测集的最优总识别正确率为74.4%. 识别结果表明SVM能够比较好的提取原始变量间的细微模式变化, 对CPP总的识别结果优于LDA.  相似文献   

2.
收集天然氨基酸的1369种0D-3D结构信息参数,经主成分分析得一组新氨基酸描述子——氨基酸0D-3D信息得分矢量,将其用于人免疫缺陷病毒蛋白酶(HIV PR)裂解位点预测,以线性判别分析与支持向量机建模预测HIV PR裂解位点.线性判别分析与支持向量机模型对646个训练集样本的自检验识别、留一法交互验证及对100个测试集样本外部验证的马休斯相关系数分别为0.879和0.911,0.849和0.901,0.822和0.846.经受试者操作特征曲线分析表明,支持向量机对HIVPR裂解位点的预测结果优于线性判别分析.研究显示,氨基酸0D-3D信息得分矢量可进一步用于HIVPR裂解位点预测.  相似文献   

3.
提出一种新的组合方法用于β-turns预测和特征分析.该方法包括两步:如何表征β-turns特征和如何构建其预测模型.第一步应用氨基酸广义信息因子分析标度表征蛋白质中β-turns的结构特征,该标度涉及氨基酸的疏水性、α-螺旋与转角倾向、体积性质、构成特征、局部柔性及静电性.第二步以426个蛋白质为训练集样本,通过留1/7法交互验证,基于支持向量机建立β-turns预测模型.该模型分别成功地预测547和823个蛋白的β-turns.所得结果与所对比方法结果相当,更重要的是,SVM模型提供了一些关于β-turns特征的重要结构信息.该组合方法可以进一步尝试用于蛋白质结构预测及特征分析.  相似文献   

4.
基于显微拉曼检测蛋白核小球藻鉴别丁草胺及草甘膦   总被引:1,自引:0,他引:1  
以蛋白核小球藻(Chlorella pyrenoidosa)作为鉴别载体,利用共聚焦显微拉曼光谱仪分别获取生长在除草剂草甘膦、丁草胺污染水体以及正常水体的蛋白核小球藻β-胡萝卜素的拉曼光谱信息,对2种除草剂进行了鉴别.利用预处理后的光谱信号,建立偏最小二乘回归(PLS)预测模型及线性判别分析(LDA)分类模型.当阈值为±0.3时,全波段建立的PLS模型对草甘膦和丁草胺的预测正确率高达83.33%,特征峰建立的LDA分类模型对2种除草剂的分类正确率均达到了100%.结果表明,利用蛋白核小球藻为载体对丁草胺和草甘膦2种除草剂进行鉴别是可行的,且LDA分类模型更适合除草剂的分类研究.  相似文献   

5.
采用近红外光谱技术结合化学计量学方法对菜籽油中多效唑残留进行定性检测。在4000~10000 cm-1光谱范围内采集126个菜籽油样本的近红外透射光谱。对原始光谱进行初步分析后,分别采用线性判别分析(LDA)、簇类独立软模式法(SIMCA)和最小二乘支持向量机(LSSVM)三种不同方法建立菜籽油中多效唑残留的定性检测模型,并对不同多效唑残留的菜籽油样本的分类正确率进行分析。研究结果表明,LDA,SIMCA及LSSVM 3种方法建立的检测模型均具有较高的判别能力,其校正集和预测集的正确率分别为93.33%,91.11%,95.56%和86.11%,88.89%,83.33%。此外,高多效唑残留样本的分类正确率大致趋于100%,而低多效唑残留样本的分类正确率则有一定波动。由此可知,利用近红外光谱技术可对菜籽油中多效唑残留进行快速、无损的定性检测。  相似文献   

6.
该文提出了高光谱成像技术结合机器学习快速无损鉴别黑色签字笔墨水种类的新方法。采集36支不同品牌型号的黑色签字笔笔迹的高光谱图像,对每支签字笔笔迹的高光谱图像选取18个感兴趣区域,共提取648个平均光谱作为样本集。对450~950 nm的原始光谱进行Savitzky-Golay平滑、Z-Score标准化和两种组合方法光谱预处理,使用线性判别分析(LDA)和随机子空间-线性判别分析(RSM-LDA)分别构建黑色签字笔墨水种类鉴别模型。实验结果表明:不同预处理方法对RSM-LDA模型的鉴别准确率影响较小,而对于LDA模型,组合预处理具有更优的鉴别准确率;相比LDA模型,RSM-LDA模型分类效果更佳,训练集的平均分类准确率达100%,交叉验证平均分类准确率达99.09%,测试集的平均分类准确率达90.70%,每类样本的准确率、精准率、召回率均高于LDA模型分类结果,模型的接受者操作特征曲线下方面积(AUC值)达0.998 3,模型性能良好。因此,采用高光谱成像技术结合RSM-LDA可实现不同品牌型号黑色签字笔墨水的快速无损鉴别。  相似文献   

7.
运用近红外光谱结合化学计量学方法实现酵母水解物的产地溯源以及真假判别分析。先选取不同地方的酵母工厂(柳州、伊犁、崇左)、不同工艺(NX系列、NA系列)的酵母水解物样品500个,市场流通的伪劣产品10个。工厂样品共计五种类型,伊犁NA系列、柳州NA系列、崇左NA系列、崇左NX系列、柳州NX系列。利用近红外光谱仪收集所有样品14 304~3 856 cm-1全波段光谱,通过对预处理后的训练集全样品、全波段光谱进行主成分分析(PCA),选出最佳主因子数,再结合线性判别分析(LDA)建立酵母水解物原产地溯源模型。验证集伊犁NA系列识别率为100%、柳州NX系列识别率为85%、崇左NA系列识别率为100%、崇左NX系列识别率为100%、柳州NA系列识别率为95%。设置模型的马氏距离阈值,造假样品报警率为100%,所有样品识别准确率均较高。PCA-LDA法结合近红外光谱可准确溯源酵母水解物的原产地以及准确对其真假进行判别。  相似文献   

8.
为了对卷烟牌号进行准确分类鉴别,提出了一种基于近红外光谱(NIRS)分析技术结合有监督的模式识别快速鉴别卷烟牌号的新方法。利用标准正态变量变换(SNV)、多元散射校正(MSC)、一阶导数(FD)、二阶导数(SD)和Savitzky-Golay平滑(SG)及其相结合的光谱预处理方法对烟丝光谱进行预处理,通过近红外光谱结合主成分分析(PCA)、偏最小二乘判别分析(PLS-DA)和正交偏最小二乘判别分析(OPLS-DA) 3种模式识别方法对不同牌号烟丝进行分类识别研究,并采用分类识别正确率作为评价指标。实验结果表明:(1)烟丝近红外光谱主成分得分图交叉重叠,区分不明显,PCA无法识别出5种牌号的成品烟丝;(2)烟丝光谱经MSC+FD预处理后的PLS-DA模型可得到较好的识别效果,校正集和测试集的分类识别正确率分别为100%和98.3%;(3)烟丝光谱经MSC+SD预处理后的OPLS-DA模型的模式识别效果最好,模型对自变量拟合指数(R2X),因变量的拟合指数(R2Y)和模型预测指数(Q2)分别为0.485、0.907 和0.748,近红外光谱校正集和测试集的分类识别正确率均为100%。说明近红外光谱技术结合有监督模式识别方法OPLS-DA建立的烟丝牌号分类模型具有高效快速、准确无损的优点,为卷烟烟丝分类提供了一种新的快速鉴别方法。  相似文献   

9.
概率神经网络和FTIR光谱用于食道癌的辅助分析   总被引:1,自引:1,他引:0  
利用正常与相应癌化食道组织的主要FTIR特征峰aυs,CH3、sυ,CH2、σCH2、aυs,po4-、υc-o、sυ,po2-及sυ,磷酸化蛋白作为概率神经网络的输入向量,对网络的主要参数(网络径向基函数分布spread(0~5))、输入向量和网络表现(m ean accurate rate of recogn ition)之间的关系进行了研究。主要结论如下:i)无论输入向量是哪种特征频率的组合,其平均识别正确率都高于71.40%;ii)当输入向量为特征频率sυ,po2、sυ,磷酸化蛋白或υc-0、sυ,po2、sυ,磷酸化蛋白时,网络表现较佳,平均识别正确率较好。当spread介于1.4~2.3时,两者均达到网络具有的最高平均识别正确率(85.71%);iii)大多数情况下,网络的平均识别正确率与spread之间呈现二个高峰的特征,即spread介于0.1~0.3和1.5~5.0之间时,网络均具有较高的平均识别正确率。研究表明,以傅里叶变换红外光谱的主要特征峰为概率神经网络的输入向量,用于食道组织样品的癌化识别分析是完全可能的,其平均识别正确率可达85.71%。  相似文献   

10.
该文以山羊绒与山羊绒/羊毛混纺织物以及纯棉与丝光棉织物为研究对象,使用其"动态"光谱,扩大类间的光谱差异信息,通过融合其同步和异步二维相关光谱,用多张动态光谱构造一张能反映细节化学差异信息的"化学图像"。使用GoogLeNet深度神经网络图像识别模型结合迁移学习,建立了一种光谱分类的新方法。收集了234个织物样品,制备水含量分别为0、5.4%、11.2%和16.3%的样本,同时采集样品的漫反射近红外光谱。使用干基样品的多种预处理光谱,利用线性分类方法簇类独立软模式识别(SIMCA)和非线性方法支持向量机(SVM),共建立了16个分类模型。其中,山羊绒与山羊绒/羊毛混纺织物的SIMCA和SVM最优预测正确率分别为63.33%和70.09%,纯棉与丝光棉织物的分别为71.02%和72.51%,均不能实现有效分类。新方法对山羊绒与山羊绒/羊毛混纺织物的预测正确率为92.59%,纯棉与丝光棉织物的为94.74%,获得了有效分类。该文首次将图像分类方法用于光谱分类识别,开辟了一种新的研究途径。针对实际应用能收集到的样品属于小样本,不能满足深度学习需要大数据样本的问题,使用迁移学习方法使深度学习框架适应了光谱分类(小样本),为人工智能领域中先进的识别技术用于解决化学问题提供了一个成功示范。  相似文献   

11.
机器学习方法用于建立乙酰胆碱酯酶抑制剂的分类模型   总被引:1,自引:0,他引:1  
我们构建了表征乙酰胆碱酯酶抑制剂分子组成、电荷、拓扑、几何结构及物理化学性质等特征的1559个描述符,通过Fischer Score排序过滤和Monte Carlo模拟退火法相结合进行变量筛选得到37个描述符,然后分别用支持向量学习机(SVM)、人工神经网络(ANN)和k-近邻(k-NN)等机器学习方法建立了乙酰胆碱酯酶抑制剂的分类预测模型.对于训练集的515个样本,通过五重交叉验证,各机器学习方法对正样本,负样本和总样本的平均预测精度分别为87.3%-92.7%,67.0%-81.0%和79.4%-88.2%;通过y-scrambling方法验证SVM模型是否偶然相关,结果正样本,负样本和总样本的平均预测精度分别为72.7%-82.5%,41.0%-53.0%和62.1%-69.1%,明显低于实际所建模型的预测精度,表明所建模型不存在偶然相关;对172个没有参与建模的外部独立测试样本,各机器学习方法对正样本,负样本和总样本的预测精度分别为93.3%-100.0%,74.6%-89.6%和86.1%-95.9%.所建模型中,SVM模型预测精度最好,且明显高于其它文献报道结果.  相似文献   

12.
应用随机森林方法、开放源代码软件-CDK(Chemistry Development Kit)描述符与170个化合物的训练数据集[其中96个为磷糖蛋白(P-gp)底物], 建立了P-gp底物的识别模型. 研究了CDK描述符与P-gp底物识别的关系, 结果表明, 原子极化性和电荷偏面积等分子属性对P-gp底物识别起到重要作用. 该模型对训练集的预测正确率为99.42%; 对外部测试集(42个化合物, 其中24个为P-gp底物)的预测结果为P-gp底物、非底物及总测试集的识别正确率分别为87.50%, 83.33%和85.71%. 212个化合物数据集上的Leave-One-Out交叉验证识别正确率为77.4%.  相似文献   

13.
该文开展了一种电感耦合等离子体质谱(ICP-MS)截尾数据和支持向量机(SVM)分类模型识别蜂蜜植物源的研究。实验选取荆条蜜、洋槐蜜、葵花蜜、油菜蜜4种不同植物源的蜂蜜共97例,经微波消解等预处理后,采用ICP-MS分别测得蜂蜜样品中16种金属元素的含量,并研究13种具有显著性差异的金属元素,以含截尾数据和不含截尾数据的元素作为输入变量分别建立基于高斯径向基函数的SVM分类模型,并通过网格搜索法(GS)、遗传算法(GA)、粒子群优化(PSO)算法对SVM模型中的惩罚参数c和核函数参数g进行优化。结果表明:Al、Ti、Cr、Ni、As、Se、Cd、Ba、Pb 9种金属元素存在截尾数据;方差分析结果表明,4种不同植物源蜂蜜之间,Na、Mg、Al、K、Ca、Mn、Ni、Cu、Zn、Se、Ba、Pb 12种金属元素在95%置信区间差异极显著,As元素在95%置信区间差异显著,Ti、Cr和Cd在95%置信区间无显著性差异,使用替换法将截尾数据按二分之一检出限值处理并作为输入变量时所建立的SVM模型分类效果更优;使用截尾数据所建立模型的判别正确率为91.8%,而不含截尾数据建立模型的判别正确率仅为82.5%。使用网格搜索法、遗传算法、粒子群优化算法对分类模型中惩罚参数c和核函数参数g作进一步优化,通过PSO算法寻优获得惩罚参数c为62.8,核函数参数g为1.26的条件下所建立的分类模型最优,其综合判别正确率为96.9%。由此可见,利用替换法按二分之一检出限值处理截尾数据作蜂蜜植物源鉴别分析是可行的,同时表明基于ICP-MS截尾数据结合SVM优化模型能提高模型判别正确率并可有效鉴别不同植物源蜂蜜。  相似文献   

14.
基于前列腺癌检测中获取的表面增强激光解吸/离子化飞行时间质谱(SELDI-TOF-MS)数据,提出一种概率主成分分析(PPCA)联合支持向量机(SVM)的分类方法。对临床322例血清样本的质谱数据进行特征提取,以随机选取训练样本集(225例)构造SVM判别模型,对剩余样本集(97例)进行测试。采用均方根误差、识别率与预测率指标,将所构造的PPCA-SVM模型分别与偏最小二乘(Partial least squares,PLS)和PCA-SVM模型进行比较,发现PLS模型的识别率和预测率分别为90.92%和76.38%,PCA-SVM模型分别为99.23%和84.63%,而PPCA-SVM模型分别为99.01%和90.41%。因此SELDI-TOF-MS技术结合PPCA-SVM在样品分类中具有准确、重复性好等优点,为前列腺癌早期诊断提供了一种新方法。  相似文献   

15.
焦测序法检测禽流感病毒   总被引:15,自引:1,他引:14  
以焦测序技术为检测平台,在研究禽流感病毒基因特性的基础上,建立一种检测禽流感病毒及确定其是否为高致病性禽流感病毒的序列测定法。首先,选择一段保守的M基因序列及一段包含裂解位点的HA基因序列为研究对象,采用聚合酶链反应(polymerase chain reaction,PCR)扩增技术初步判断其是否为禽流感病毒及病毒亚型;然后采用焦测序法检测目的片段序列;最后,对焦测序法检测序列进行分析,从基因序列上判断其是否为禽流感病毒,并进一步判断病毒的亚型以及是否为高致病性禽流感病毒。研究结果表明,当焦测序反应中三磷酸酰苷双磷酸酶(Apyrase)的浓度为1.6U/mL时,能有效抑制错误信号的产生;当Klenow的浓度为90U/mL时,可读序列长度为33个碱基。采用优化的焦测序反应体系测定了4个样本,其中1个样本被判断为H5N1亚型禽流感病毒,具有潜在的高致病性;另外3个样本为H9N2型禽流感病毒,具有低致病性。本方法具有准确、快速和实时检测等优点。  相似文献   

16.
七种无机元素与中药药性的相关性研究   总被引:4,自引:1,他引:3  
本文研究支持向量机用于中药药性识别的可行性.选择7种无机元素在中药中的含量为指标,运用支持向量机对193种不同药性的中药进行训练,建立平性与非平性中药的预测模型.结果训练集识别正确率95.03%,建立的模型对预测集中平性药的识别正确率为82.14%,对非平性药的识别正确率为70%,总正确率为73.58%.  相似文献   

17.
该文从实际案件中收集了5个地区共计204份指甲样本,运用希尔伯特变换滤波器对原始谱图进行降噪处理,然后采用主成分分析进行数据降维,借助朴素贝叶斯、随机森林以及偏最小二乘判别分析模型开展指甲地区的识别工作,并根据模型的识别率和相关指标筛选出最佳预处理方法和最优识别模型。结果表明,经预处理后的原始谱图识别率得到显著提升,希尔伯特变换滤波器结合主成分分析是最佳预处理方法,随机森林模型的稳定性和识别率均高于朴素贝叶斯和偏最小二乘判别分析模型,对最佳预处理方法的训练集识别率为94.88%,测试集识别率为93.47%。该方法能有效降低谱图的噪声,减少数据的冗余,提高模型的识别效果,为法庭科学中指甲地区的快速鉴定提供了参考。  相似文献   

18.
基于支持向量学习机方法的人体小肠吸收药物活性的预测   总被引:2,自引:0,他引:2  
为了预测分子在人体小肠中的吸收,本文计算了表征分子的电子、拓扑、几何结构、分子形状等特征的102个分子描述符,用遗传算法变量选择方法使描述符减少到47个。体系共包含了230个化合物分子,69个不能被吸收(mA-),161个可以被吸收(HIA )。对建立的SVM模型,用5重交叉验证和独立测试集进行验证,预测正确率分别达到79.1%和77.1%,结果具有较好的一致性。在模型验证中,通过聚类分析方法组合训练集和测试集,保证了模型的稳定性,提高了建模效率。  相似文献   

19.
气相色谱结合化学计量学区分大米贮藏时间与产地   总被引:1,自引:0,他引:1  
香气是衡量大米质量的一个主要因素,对大米的食用品质有重要影响。该文以顶空固相微萃取(SPME)技术为基础,采用气相色谱法分别分析了不同贮藏时间和不同产地大米样本的挥发性成分,通过主成分分析法(PCA)和偏最小二乘判别分析法(PLS-DA)对大米样本进行分类和判别分析。PCA及PLS投影图显示不同储藏时间的大米明显聚为4类,通过留一交叉验证法(LOO)计算PLS预报的准确率为96%,相对标准误差为8.2%。同时,PCA投影图中可将4个不同产地的大米样本进行区分,分类效果显著;所建PLSDA模型可靠,不同产地大米样本均能被准确识别,正确率为100%。以顶空固相微萃取/气相色谱检测大米中挥发性成分,利用主成分分析法和偏最小二乘判别分析法鉴别大米新鲜程度和产地具有可行性。  相似文献   

20.
毛锐  王欣  史然 《分析测试学报》2017,36(3):372-376
应用主成分分析(Principal component analysis,PCA)和聚类分析法(Cluster analysis,CA)对9种(27个)常见食用植物油及100个餐饮废油的低场核磁共振(Low-field nuclear magnetic resonance,LF-NMR)(T2)弛豫特性数据进行分析。结果表明:在正常食用油种类区分方面,主成分分析的效果较优,9种食用油在主成分分布图上按种类正确分组,边界清晰。而在正常食用油与餐饮废油的区分方面,聚类分析效果较优,引入30个待测样本后,聚类分析(127个样品,欧式距离=5)的正确率为94.49%,分析误判率为5.51%,分组效果良好。LF-NMR结合化学模式识别可实现对油脂种类及餐饮废弃油脂的鉴别。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号