首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 406 毫秒
1.
由于校正集样本的质量决定校正模型的质量,校正集中奇异样本的检测在多元校正建模中具有非常重要的意义.本研究建立了一种用于近红外光谱多元校正建模时校正集中奇异样本的检测方法.本方法基于奇异样本的定义和偏最小二乘方法的原理,通过考察每个校正集样本在模型的每个因子(或主成分)中对模型的贡献,将与多数样本表现不同的样本识别为奇异样本.采用218个橘汁样本构成的近红外光谱数据进行了分析,结果表明,校正集中存在6个奇异样本,扣除奇异样本后,校正集的交叉验证均方根误差由16.870减小为4.809,预测集的均方根误差从3.688减小为3.332.  相似文献   

2.
邵学广  陈达  徐恒  刘智超  蔡文生 《中国化学》2009,27(7):1328-1332
偏最小二乘法(PLS)在近红外光谱(NIR)定量分析中占有重要地位,但预测结果往往容易受到样本分组和奇异样本等因素的影响,稳健性不强。多模型PLS (EPLS)方法在模型稳健性上得到提高,然而它无法识别样本中存在的奇异样本。为了同时提高模型的预测准确性和稳健性,本文提出了一种根据取样概率重新取样的多模型PLS方法,称为稳健共识PLS(RE-PLS)方法。该方法通过迭代赋权偏最小二乘法(IRPLS)计算样本回归残差得到每个校正集样本的取样概率,然后根据样本的取样概率来选择训练子集建立多个PLS模型,最后将所有PLS模型的预测结果平均作为最终预测结果。该方法用于两种不同植物样品的近红外光谱建模,并与传统的PLS及EPLS方法进行比较。结果表明该方法可以有效的避免校正集中奇异样本对模型的影响,同时可以提高预测精确度和稳健性。对于含有较多奇异样本的,复杂近红外光谱烟草实际样本,利用简单PLS或者EPLS方法建模预测效果不是很理想,而RE-PLS凭借其独特优势则有望在这种复杂光谱定量分析中得到广泛的应用。  相似文献   

3.
该研究基于近红外光谱(NIRs)技术,以2016~2018年来自13个省份的937个烟叶样本为研究对象,比较了竞争性自适应重加权采样方法(CARS)、蒙特卡洛无信息变量消除法(MC-UVE)以及随机青蛙算法(RF)3种变量筛选方法的极限学习机(ELM)模型效果,与常规判别方法偏最小二乘判别分析(PLS-DA)比较,验证了ELM模型的优势。并通过教与学优化(TLBO)算法对ELM模型进行优化,建立烤烟样本的等级判定模型。结果表明,验证集的分类正确率达到90.16%,测试集的外部验证表现良好,TLBO-ELM模型收敛速度快,泛化能力强,可应用于烤烟等级判定。近红外光谱技术结合教与学算法优化极限学习机为智能化实现烟叶等级判定提供了一种新方法。  相似文献   

4.
在B3LYP/6—311G*水平上全优化计算了41个烃基苯酚的量子化学参数,连同取代烃基位置编码参数共同表征有机物的分子结构,应用基于预测的模型变量选择方法(VSMP)选择描述子最佳子集,建立了偶极距(μ)和分子平均极化率(α)与烃基苯酚对梨形四膜虫水生毒性pIGC50两变量线性QSAR模型,模型的相关系数r为0.9434,均方根误差RMSE为0.2548,LOO交叉验证相关系数Q为0.9170,均方根误差RMSV为0.3066;为检验模型的稳定性和预测能力,将41个样本分作了奇数集和偶数集,分别建立了模型,并用Y—Randomization方法对全部样本、奇数集和偶数集所建立的模型进行了检验;建立的奇数集和偶数集模型均满足Tropsha研究小组建议的预测能力标准。  相似文献   

5.
该文提出了一种基于太赫兹时域光谱的水稻种子模式识别方法。实验以10种不同品牌混合掺假的水稻种子为样本,基于采集的样本太赫兹时域光谱数据,通过建立Relief、随机森林(RF)、支持向量机递归特征消除(SVM-RFE)和最大相关最小冗余(mRMR)模型分别对样本光谱波长进行特征选择,最后设计分类器对4种特征选择方法处理后的样本进行分类识别。结果表明,基于布谷鸟算法(CS)优化的极限学习机模型对经RF特征选择算法提取后的样本光谱数据具有最佳识别效果,其准确率可达100%,实验对于法庭科学领域内种子的掺假鉴定具有一定的借鉴意义。  相似文献   

6.
在对一系列抗癌性7,8-二烃基-1,3-二氨基吡咯-[3,2-f]喹唑啉类二氢叶酸还原酶抑制剂的二维定量构效关系(2D—QSAa)研究基础上,应用比较分子场分析法对该类配合物进行了三维定量构效关系(3D—QSAR)研究.建立了具有良好的统计学性能及预报能力的3D.QSAR模型,非交叉验证相关系数为0.993,交叉验证相关系数为0.619,估算的标准误差0.208,统计方差比193.4.该模型表明立体场因素的影响比静电场因素大很多,此结果与我们已经报道的2D—QSAR模型结果相一致.然而,3D—QSAR模型提供了可视化的立体场、静电场因素对活性的影响.3D—QSAR研究对实验上提出的二氢叶酸还原酶与药物分子的疏水键合作用机理得到了进一步的理论解释.  相似文献   

7.
为了提高油页岩含油率近红外光谱分析建模的预测精度和稳定性,开展了基于最小二乘支持向量机(LS-SVM)建模方法的对比研究.采用主成分-马氏距离(PCA-MD)和基于蒙特卡洛采样(MCS)2种方法进行了奇异样本的检测,采用径向基核函数的LS-SVM、偏最小二乘(PLS)和反向传播神经网络(BPANN)3种方法进行建模方法对比.结果表明,对于64个油页岩岩芯样本,与PCA-MD方法相比,采用MCS方法剔除奇异样本后所建PLS模型的预测精度提高了28%.对于MCS方法剔除奇异样本后的58个样品,采用KennardStone法划分了44个样品的校正集和14个样品的预测集,采用2阶导数和标准化预处理方法,建立了100个LS-SVM的校正模型,模型的预测决定系数R2平均值达到0.90以上,高于PLS和BPANN模型的对应值;且R2的变化量(0.02)小于BPANN模型的对应值(0.32).因此,MCS奇异样本检测结合LS-SVM方法可提高油页岩含油率样本建模的精度和稳定性.  相似文献   

8.
李逸  王边琳  牛超  侯雪玲 《化学通报》2022,85(6):728-735
本文对橙酮类DRAK2抑制剂的化学结构与生物活性之间的关系进行研究。采用三维定量构效关系(3D-QSAR)中的比较分子力场分析(CoMFA)和比较分子相似性指数分析(CoMSIA)方法针对59个DRAK2抑制剂建立3D-QSAR模型,阐明了抑制剂化学结构与其生物活性之间的关系。所构建的CoMFA模型交叉验证系数(q2)为0.625,非交叉验证系数(r2)为0.811,标准偏差(S)为0.365,Fisher检验值(F)为59.971;所构建的CoMSIA模型q2为0.62,r2为0.846,S为0.333,F值为56.453。内部和外部验证参数表明,生成的3D-QSAR模型均具有良好的预测能力和显著的统计学可靠性。分子对接实验与等势图的一致性,进一步表明本次分子模拟是可靠的。本研究对发现新型的潜在的更高活性的橙酮类DRAK2抑制剂具有指导意义。  相似文献   

9.
赵劲松  于书霞 《分析化学》2007,35(12):1756-1760
提出了基于分子相互作用力场(MIF)、应用偏最小二乘(PLS)与多区组偏最小二乘(MBPLS)分析相结合,建立并检验多氯代二苯并二嗯英(PCDD)定量结构一色谱保留关系(QSRR)模型的研究方法。分别以表征van der Waals、氢键和疏水效应的C3、H和DRY探针,计算75种PCDD的分子相互作用力场,并与其气相色谱Kovats保留指数进行PLS与MBPLS分析,建立了拟合与预测效果良好的QSRR模型。其中MBPLS模型相关系数r^2为0.998;交叉验证的相关系数q^2为0.994。采用投影变量重要性方法判断了各种效应在PCDD色谱保留中的贡献。结果表明:van der Waals作用的影响最大,其次为疏水效应,而氢键效应影响较小。  相似文献   

10.
朱育丹  吕玲红  陆小华 《化学进展》2007,19(11):1646-1652
作为一种很有前景的建模方法,逆向蒙特卡洛法(Reverse Monte Carlo 简称RMC 法)在无定形碳结构研究中得到了广泛应用。本文阐述了RMC 法对于无定形碳材料结构识别的意义,简介了该法的基本原理,同时针对使用RMC 法建立无定形碳结构模型时遇到的两大难点:即模拟结构的真实性问题和大尺寸孔网络的建模问题,综述了该方法的改进和发展趋势。几何约束和能量约束的使用,提高了模拟结构的真实性;具有介孔的多孔碳模型的建立,将成为今后研究的热点。  相似文献   

11.
应用比较分子力场分析(CoMFA)方法研究4-肟醚基喹唑啉类化合物抗烟草花叶病毒活性的三维构效关系(3D-QSAR),引入分子的摩尔折射率(MR)和偶极矩(DIPOLE)分别作为CoMFA的第三和第四个场. 在此基础上进行偏最小二乘(PLS)分析:交叉验证(leave-one-out)结果为r2cv=0.443,非交叉验证(no validation)结果为r2=0.932,说明所建立的模型有较好的可靠性,并且在三维等值线图的基础上得到了一个此类化合物的模拟作用模型,据此可生长出一系列先导分子.  相似文献   

12.
结合采样误差分布分析(SEPA)框架和最小角回归(LAR)算法,提出了一种SEPA-LAR变量逐步筛选方法用于波长选择,并建立了稳健的近红外光谱分析模型。利用蒙特卡洛采样(MCS)获得多个数据集划分建立多个模型,对光谱各变量(波长)在所有模型的LAR系数进行统计分析,按其回归系数绝对值总和由大到小排序,选择排序靠前的波长建立偏最小二乘(PLS)模型,以未参与SEPA-LAR和建模的独立验证集对该模型进行评价。将玉米湿度、柴油密度以及奶酪脂肪的近红外光谱数据用于SEPA-LAR的性能检验,独立验证集的预测均方根误差(RMSEP)分别为0.001 44%(湿度指标)、0.001 58 g/mL(密度指标)以及1.13 g/100 g(脂肪含量指标)。结果表明,相较于竞争自适应重加权采样法(CARS),该方法具有更优异的稳定性;相较于移动窗口偏最小二乘(MWPLS)以及蒙特卡洛无信息变量消除(MCUVE)方法,该方法选择的变量更少,预测误差更低,预测性、可解释性和稳定性更优异。  相似文献   

13.
应用比较分子力场分析(CoMFA)方法研究4-肟醚基喹唑啉类化合物抗烟草花叶病毒活性的三维构效关系(3D-QSAR),引入分子的摩尔折射率(MR)和偶极矩(DIPOLE)分别作为CoMFA的第三和第四个场。在此基础上进行偏量小二乘(PLS)分析:交叉验证(leave-one-out)结果为rcv^2=0.443,非交叉验证(no valida-tion0结果为r^2=0.932,说明所建立的模型有较好的可靠性,并且在三维等值线图的基础上得到了一个此类化合物的模拟作用模型,据此可生长出一系列先导分子。  相似文献   

14.
细胞信号网络中的蛋白质相互作用常通过结合一折叠偶合方式实现,即来自一方蛋白的刚性肽识别域与来自另一方蛋白表面的一段柔性寡肽片段发生识别和结合,从而介导母体蛋白相互作用.深入分析域/肽识别和相互作用的理化性质及精确预测其作用行为,能够有效揭示细胞信号转导的分子基础.该研究将一种新型非线性机器学习方法即高斯过程(GP),用于预测和分析4类域/肽体系数千个样本的亲和力数值和序列结构特征,并与传统偏最小二乘回归(PLS)及支持向量机(SVM)技术加以系统比较.结果表明,GP建模性能不亚于广泛使用的SVM,显著优于经典PLS.此外,GP能够较好处理线性和非线性混合问题、自动确定模型结构、能够通过超参数解释体系噪音纳入和变量贡献,给出预测结果的置信评估,这些特点皆是传统方法所不具备的.鉴于此,可以认为GP是一种具有开发潜力的机器学习策略,不仅可供分析域/肽识别和相互作用,还可用于解决和处理其他生物相关问题.  相似文献   

15.
μ-芋螺毒素及其类似物的定量构效关系研究   总被引:1,自引:0,他引:1  
μ-芋螺毒素是肌肉型钠离子通道的专一性阻断剂,本文主要采用PLS(PartialLeastSquare)多元数学分析方法对μ-芋螺毒素及其17个类似物进行了定量构效关系研究,建立了QSAR模型,其模型的交叉验证值R2=0.813,Y实验值与Y预测值的相关系数0.903.计算结果表明,对分子活性影响比较大的是13位精氨酸残基和分子中的电荷变化,增加分子的正电荷,将提高分子的活性,其次是19,2,12,9,和17位氨基酸残基.  相似文献   

16.
中药材三七中皂苷类成分的近红外光谱快速无损分析新方法   总被引:23,自引:0,他引:23  
提出了用近红外漫反射光谱快速无损测定三七中皂苷类成分的新方法采用 HPLC分析了中药材三七固皂昔R_1,人参皂苷Hg_1,Rb_1和Rd的含量,用吸附树脂 比色法测定了三七总皂苷(PNS)的含量,共获得R_1,Bg_1,Rb_1,Rd,PNS的含 量范围分别为1,58-5.08,21,68-46.13,11.46-40.41粉.在3500-1100cm~(-1) 扫描样品,以交叉验证误差均方根(RMsECV)为指标,通过筛选,近红外波段和光 谱预处理方法.采用偏最小二乘算法建立了近红外光谱与5个组分PHLC分析值之间 的校正模型,预测了8个未知样本.R_1,Rg_1,Rb_1,Rd及PNS校正模型的RMSECV 分别为0.40,1.47,1.94,0RMSEP分别为0.53,3.15,2.14,0.70,9.03. 该方法快速无损,结果可靠,为中药材复杂体系中化学组分的测定提供了新的绿色 分析手段.  相似文献   

17.
收集天然氨基酸的1369种0D-3D结构信息参数,经主成分分析得一组新氨基酸描述子——氨基酸0D-3D信息得分矢量,将其用于人免疫缺陷病毒蛋白酶(HIV PR)裂解位点预测,以线性判别分析与支持向量机建模预测HIV PR裂解位点.线性判别分析与支持向量机模型对646个训练集样本的自检验识别、留一法交互验证及对100个测试集样本外部验证的马休斯相关系数分别为0.879和0.911,0.849和0.901,0.822和0.846.经受试者操作特征曲线分析表明,支持向量机对HIVPR裂解位点的预测结果优于线性判别分析.研究显示,氨基酸0D-3D信息得分矢量可进一步用于HIVPR裂解位点预测.  相似文献   

18.
基于支持向量学习机方法的人体小肠吸收药物活性的预测   总被引:2,自引:0,他引:2  
为了预测分子在人体小肠中的吸收,本文计算了表征分子的电子、拓扑、几何结构、分子形状等特征的102个分子描述符,用遗传算法变量选择方法使描述符减少到47个。体系共包含了230个化合物分子,69个不能被吸收(mA-),161个可以被吸收(HIA )。对建立的SVM模型,用5重交叉验证和独立测试集进行验证,预测正确率分别达到79.1%和77.1%,结果具有较好的一致性。在模型验证中,通过聚类分析方法组合训练集和测试集,保证了模型的稳定性,提高了建模效率。  相似文献   

19.
GABAA五种亚型受体与BZ配基的3D-QSAR研究   总被引:1,自引:0,他引:1  
GABAA受体是中枢神经系统内重要的抑制性受体,有广泛的神经生理活性.由于镇静/抗惊厥药物在临床上的广泛应用,使得其中苯并二氮杂作用位点尤为重要.我们用比较分子场法(CoMFA)对一系列咪唑苯并二氮杂类化合物(BZ)与五种重组受体亚型的亲和力进行了结构活性关系研究,得到的一组模型都有较高的交叉验证系数.并在此基础上,建立了非交叉验证的一组PLS模型.用该组模型对随机选择的6个化合物组成的测试集进行了预测,都得到了相当满意的结果,表明所建立的一组模型具有良好的预测能力.本研究对于设计高亲和力的BZ受体的配基和研究GABAA受体的模型有指导意义.  相似文献   

20.
为卷烟配方替代和产品质量稳定性评价奠定基础,利用近红外光谱结合模式识别方法,建立了卷烟烟丝配方比例的识别模型。在某牌号卷烟成品烟丝中添加5种不同比例的A模块烟丝,采集其近红外光谱信息,采用求导法(一阶求导、二阶求导)和平滑法(Savitzky-Golay平滑、Norris平滑)对样品近红外光谱进行预处理,结合主成分分析-马氏距离(PCA-MD)、偏最小二乘法-判别分析(PLS-DA)和正交偏最小二乘法-判别分析(OPLS-DA)建立上述5种成品烟丝的识别模型。结果显示,最佳光谱预处理方式为一阶求导+Savitzky-Golay平滑,最佳模式识别方法为OPLS-DA。当主成分数为4时,最佳识别模型的光谱变量累计解释能力为0.995,分类变量累计解释能力为0.953,特征值为0.196,累计交叉有效性为0.912,模型外部验证的整体识别率为99%。置换验证结果表明该模型稳定可靠,未出现过拟合现象。对5种成品烟丝进行感官评吸,该模型对不同卷烟烟丝配方比例的识别效果更好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号