共查询到18条相似文献,搜索用时 93 毫秒
1.
遗传算法用于变量筛选 总被引:3,自引:0,他引:3
利用遗传算法的优越搜索寻优特性,结合有序Gram-Schmidt正文化及PLS算法可得到预报能力较强的模型,即PRESS(预报残差平方和)值较低的模型.该法可用于处理构效关系及人发微量元素与性别关系问题,并与正交递归选择法及逐步回归正向选择法进行比较,结果良好. 相似文献
2.
3.
离散小波变换-遗传算法-交互检验法用于近红外光谱数据的高倍压缩与变量筛选 总被引:11,自引:0,他引:11
用遗传算法(GA)与交互检验(CV)相结合建立了一种用于对近红外光谱(NIR)数据及其离散小波变换(DWT)系数进行变量筛选的方法,并应用于烟草样品中总挥发碱和总氮的同时测定。结果表明:NIR数据经DWT压缩为原始大小的3.3%时基本没有光谱信息的丢失;有效的变量筛选可以极大地减少模型中的变量个数,降低模型的复杂程度,改善预测的准确度。 相似文献
4.
蒙特卡洛-偏最小二乘回归系数法用于近红外光谱变量筛选 总被引:1,自引:0,他引:1
提出了一种蒙特卡洛-偏最小二乘回归系数法用于近红外光谱的变量筛选。方法主要包含如下几步:(1)采用蒙特卡洛采样方式,建立多个子集;(2)对每个子集建模,计算其回归系数,并按回归系数绝对值大小对各子模型中的变量进行排序;(3)按频数统计方法对波长排序;(4)对上步中排序后的波长以逐步累加进入最佳变量子集的方式进行交互验证,用以选择最佳变量集。将方法用于生物样品溶液和烟草样品近红外光谱的变量筛选,最终分别从原始的1234及1557个变量中选择了27和68个特征变量,对独立测试集进行预测的RMSEP分别从全谱变量的0.02716和0.06411降低为0.02372和0.03977。方法可有效地对近红外光谱进行变量筛选。 相似文献
5.
近红外光谱结合CARS变量筛选方法用于液态奶中蛋白质与脂肪含量的测定 总被引:6,自引:1,他引:6
采用CARS(Competitive adaptive reweighted sampling)变量筛选方法建模,显著提高了液态奶中蛋白质与脂肪近红外模型的预测精度。用蒙特卡罗采样(Monte-Carlo sampling)方法先剔除奇异样本,再对光谱进行中心化与Karl Norris滤波降噪处理,通过CARS方法筛选出与样本性质密切相关的变量,建立预测蛋白质与脂肪含量的偏最小二乘法(PLS)校正模型,并与未选变量的PLS模型进行比较。以定标集相关系数(r2)及交互验证均方残差(RMSECV)和预测误差均方根(RMSEP)作为判定依据,确定了蛋白质与脂肪的最佳建模条件。蛋白质与脂肪校正模型的相关系数分别为0.975 0、0.995 1,RMSECV分别为0.194 8、0.136 3,RMSEP分别为0.113 3、0.140 1,预测结果优于未选变量的PLS模型及其他选变量方法,有效简化了模型,适于液态奶中脂肪和蛋白质的快速、无损检测。 相似文献
6.
模拟退火神经网络用于药物液相色谱梯度分离条件的优化。使用均匀设计法以乙腈在线性梯度展开时的初始浓度和线性梯度的斜率为优化参数,对六种药物混合体系进行优化。采用退火神经网络方法建立了有效的分离条件预测模型。对神经网络模型所预测的最佳分离条件进行试验,分离结果满意。模拟退火神经网络可有效地用于药物液相色谱分离条件的优化。 相似文献
7.
该文提出了基于无监督判别投影特征选择的支持向量机方法(UDPFS-SVM)用于标志物筛选。UDPFS-SVM首先通过无监督判别投影算法(UDPFS)引入分类先验信息、添加正则化与惩罚函数等约束自适应地获得具有稀疏性的判别投影矩阵,然后根据获得的矩阵求得相应低维代谢矩阵,最后建立支持向量机(SVM)分类模型寻找生物标志物。所提出的方法能够同时进行模糊学习与稀疏学习,并可合理利用变量之间的依赖关系。通过UDPFS-SVM与偏最小二乘判别分析(PLS-DA)方法对高脂血症大鼠血浆代谢组学数据进行变量筛选,并采用方差分析、ROC曲线、线性判别分析(LDA)对筛选得到的生物标志物进行评价。结果表明,两种方法均发现8个生物标志物。方差分析显示UDPFS-SVM方法获得的生物标志物均具有显著性差异,且显著性差异值均大于PLS-DA;ROC结果显示UDPFS-SVM结果为1.00,比PLS-DA结果高0.05;LDA显示UDPFS-SVM获得的生物标志物在高脂血症样本中可以更好地消除组内代谢差异,区分组间代谢差异,说明UDPFS-SVM方法在高脂血症生物标志物发现上优于PLS-DA,为生物标志物的发现提供了一种新思路。 相似文献
8.
9.
激光诱导击穿光谱检测青菜中镉元素的多变量筛选研究 总被引:1,自引:0,他引:1
利用激光诱导击穿光谱(LIBS)技术与常规化学分析方法获取28个浓度梯度含Cd元素的青菜样品的LIBS谱线信息以及Cd含量信息.对获取的光谱信息结合标准归一化处理(SNV)、一阶导数(FD)、二阶导数(SD)、中心化处理(Center)作为偏最小二乘法(PLS)模型的优选方法;再根据4种预处理方法的预测结果选取最佳方法,同时将该方法作为间隔偏最小二乘法(iPLS)与联合区间间隔偏最小二乘法(SiPLS)优选青菜LIBS谱线的最佳波长区间.结果表明:通过SiPLS优选的特征波长区间分别为214.72 ~ 215.82 nm,215.88~ 216.97 nm,225.08 ~ 226.35 nm,并且经过中心化预处理后建立的验证模型效果最好,结果显示交叉验证均方根误差(RMSECV)为1.487,验证均方根误差(RMSEP)为1.094,相关系数(R)为0.9942,平均相对误差(ARE)为11.60%.研究结果表明,所选优化方法适合青菜中重金属Cd元素的LIBS校正模型的建立,且具有较好的预测效果. 相似文献
10.
人工神经网络及模拟退火算法应用于原子吸收光谱法同时测定钙、磷 总被引:2,自引:0,他引:2
试验发现:原子吸收光谱法(AAS)在442.7 Nm波长处测定钙时受到大于0.10 mg·L-1磷共存的干扰,使钙的测定结果偏低,而且此负偏差降低的幅度随磷浓度的增加而增大.试验还发现:当共存磷的量在0.1~6.0 mg·L-1之间时,钙测量值的负偏差幅度与磷浓度之间存在明显的相关性.应用反向传播人工神经网络(BP-ANN)及模拟退火两种计算法对上述非线性干扰效应进行了研究,并提出了在单一波长检测的条件下,钙、磷两元素的原子吸收光谱法同时测定,此法应用于循环水中钙、磷的同时测定.两元素的检测范围依次为0.08~10.0 mg·L-1及0.10~6.0 mg·L-1,测得其回收率分别为100.5%和98.0%. 相似文献
11.
Variable selection is very important to set up the best predictive model. The common variable selection methods are mainly the stepwise regression and all possibility regression. 相似文献
12.
In this study,different methods of variable selection using the multilinear step-wise regression(MLR) and support vector regression(SVR) have been compared when the performance of genetic algorithms(GAs) using various types of chromosomes is used.The first method is a GA with binary chromosome(GA-BC) and the other is a GA with a fixed-length character chromosome(GA-FCC).The overall prediction accuracy for the training set by means of 7-fold cross-validation was tested.All the regression models were evaluated by the test set.The poor prediction for the test set illustrates that the forward stepwise regression(FSR) model is easier to overfit for the training set.The results using SVR methods showed that the over-fitting could be overcome.Further,the over-fitting would be easier for the GA-BC-SVR method because too many variables fleetly induced into the model.The final optimal model was obtained with good predictive ability(R2 = 0.885,S = 0.469,Rcv2 = 0.700,Scv = 0.757,Rex2 = 0.692,Sex = 0.675) using GA-FCC-SVR method.Our investigation indicates the variable selection method using GA-FCC is the most appropriate for MLR and SVR methods. 相似文献
13.
WANGYu-hong LIWei 《高等学校化学研究》2005,21(1):73-77
In this paper are reported the local minimum problem by means of current greedy algorithm for training the empirical potential function of protein folding on 8623 non-native structures of 31 globular proteins and a solution of the problem based upon the simulated annealing algorithm. This simulated annealing algorithm is indispensable for developing and testing highly refined empirical potential functions. 相似文献
14.
光谱样本数据常会受到环境噪声和其它组分的干扰,应作波长选择,以提高分析精度。近红外光谱谱区宽,搜索空间过大,难以直接采用遗传算法进行波长选择。为此本研究提出先用移动窗口偏最小二乘法(MWPLS)从宽谱区中初选出信息区间,再采用改进的迭代遗传算法(IGA)从中选出最优的信息子区间。MWPLS用移动窗口沿全谱区扫描,对信息区间的定位效果好,而IGA将顾及光谱数据的连续相关特性,运行多轮GA,并以上轮选择结果平滑处理后作为先验知识支持下轮的种群初始化。由此选出的连续相邻的波长点作为自变量,进行PLS建模,既可显著地简化模型,又保留一定的数据冗余,模型的稳健性好、分析精度高。将其用于小麦水分的近红外分析,效果良好,预测性能明显优于其它方法。 相似文献
15.
近红外光谱技术结合竞争自适应重加权采样变量选择算法快速测定土壤水解性氮含量 总被引:1,自引:0,他引:1
为了能够快速准确地掌握整个昆明地区土壤水解性氮含量的情况,收集963个不同类型的土壤样品,采用竞争自适应重加权采样(Competitive adaptive reweighted sampling,CARS)变量选择方法筛选波长变量,并建立水解性氮的偏最小二乘法(Partial least squares,PLS)分析模型。结果表明,采用CARS方法优选波长变量后,模型参数有所改善,交互验证标准偏差(Root mean square error of cross validation,RMSECV)由31.63降至25.55,交互验证相关系数(Correlation coefficientof cross validation,Rcv)由0.78提升至0.84,且模型外部验证结果与内部交叉验证结果基本一致。研究结果表明近红外光谱技术结合CARS分法,在大量代表性样品建模下,能够有效建立昆明地区不同土壤类型的水解性氮含量的近红外数学模型,方法可推广应用于土壤其他组分的近红外检测,具有重要的指导意义。 相似文献
16.
该文在免疫遗传算法(IGA)的基础上,提出一种改进免疫遗传算法(iIGA)用于近红外光谱波长变量的选择。该算法舍去了原算法中固定抗体相似度阈值的思想,取而代之的是抗体相似度阈值自适应,同时引入精英保留策略和贪心算法思想,使得算法朝着正确的方向进行局部性探优。将该算法在玉米的淀粉和蛋白质含量数据集上进行实验测试,建立偏最小二乘(PLS)分析模型,并与IGA、遗传算法(GA)以及全谱方法进行了对比。结果表明,在玉米淀粉含量的预测上,iIGA相较于原IGA算法,预测集均方根误差(RMSEP)从0.312 0降至0.298 0,预测集预测精度提升4.5%;在玉米蛋白质含量的预测上,RMSEP从0.124 4降至0.110 3,预测集预测精度提升11.3%。分别对预测淀粉和蛋白质模型的RMSEP值进行显著性检验,F值分别为165.22和182.05,P值分别为9.5 × 10-23和4.5 × 10-24,P值均小于0.05,因此,iIGA能显著提升模型预测精度。 相似文献
17.
The selection abilities of the two well‐known techniques of variable selection, synergy interval‐partial least‐squares (SiPLS) and genetic algorithm‐partial least‐squares (GA‐PLS), have been examined and compared. By using different simulated and real (corn and metabolite) datasets, keeping in view the spectral overlapping of the components, the influence of the selection of either intervals of variables or individual variables on the prediction performances was examined. In the simulated datasets, with decrease in the overlapping of the spectra of components and cases with components of narrow bands, GA‐PLS results were better. In contrast, the performance of SiPLS was higher for data of intermediate overlapping. For mixtures of high overlapping analytes, GA‐PLS showed slightly better performance. However, significant differences between the results of the two selection methods were not observed in most of the cases. Although SiPLS resulted in slightly better performance of prediction in the case of corn dataset except for the prediction of the moisture content, the improvement obtained by SiPLS compared with that by GA‐PLS was not significant. For real data of less overlapped components (metabolite dataset), GA‐PLS that tends to select far fewer variables did not give significantly better root mean square error of cross‐validation (RMSECV), cross‐validated R2 (Q2), and root mean square error of prediction (RMSEP) compared with SiPLS. Irrespective of the type of dataset, GA‐PLS resulted in models with fewer latent variables (LVs). When comparing the computational time of the methods, GA‐PLS is considered superior to SiPLS. Copyright © 2010 John Wiley & Sons, Ltd. 相似文献