首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 78 毫秒
1.
通过消除光谱中的冗余信息变量,挑选出代表样品性质的特征变量代替全谱建立定量模型,可以提高近红外分析结果的准确性。基于进化论中适者生存原理的竞争性自适应重加权采样(CARS)算法因具有计算速度快、筛选得到的特征波长少等优点,在近红外特征变量筛选方面得到了广泛的应用。然而该方法在计算过程中容易出现校正集和验证集结果不一致情况。这是因为算法过于强调校正集交叉验证结果,且并未考虑相邻变量之间的协同作用。为了建立更加稳健的变量筛选方法,通过结合“窗口”以及CARS算法的优势,提出了一种基于窗口竞争性自适应重加权采样(WCARS)策略的近红外特征变量筛选方法,并将其应用于复杂植物样品近红外光谱与其化学成分含量之间的建模分析。采用WCARS方法可以实现准确定量分析,且通过与竞争性自适应重加权采样(CARS)方法结果相比较,WCARS方法得到的校正集和预测集结果一致,在一定程度上减少了过拟合问题的出现。该策略能有效增强特征变量选择的稳健性,提高了定量模型的可信度,具有一定的应用价值。  相似文献   

2.
糖度是评价苹果内部品质的重要指标之一。建立苹果糖度预测模型时,建模样本和波长的质量影响模型的准确性和后期的更新维护。以90个苹果样本为研究对象,采集350~1 150nm波段共1 044个波长的苹果近红外漫透射光谱,研究基于最小角回归索套算法(LASSOLars)优选建模样本和波长的有效性和可行性。结合使用Norris平滑、一阶微分和归一化变量排序对光谱预处理。根据浓度排序划分样本集的75%为原始训练集(68个)和25%为预测集(22个),使用LASSOLars建立优选训练集,对比LASSOLars和蒙特卡罗无信息变量消除、竞争性自适应重加权法,从样本、波长的数目和分布以及模型的结果进行对比分析。结果表明,优选训练集压缩了原始训练集16%的样本,在不改变原始训练集平均水平的前提下,更接近预测集分布,没有削弱模型质量。优选和原始的训练集交叉验证均方根误差RMSECV分别为0.460和0.491,交叉验证决定系数R2CV分别为0.913和0.916,预测集均方根误差RMSEP分别为0.462和0.471,预测集决定系数RP<...  相似文献   

3.
提出了一种基于稳定竞争自适应重加权采样(stability competitive adaptive reweighted sampling,SCARS)的无标模型传递方法。利用有用信息标准即稳定度指数(定义为回归系数除以其标准偏差的绝对值)和传递后的预测均方根误差(root mean squared error of prediction,RMSEP),选择重要的、受测样参数影响不敏感的波长变量,能够消除或减少不同仪器或测量条件对样本信息反应差异,提高模型传递效果。此外,在该方法中,光谱变量被压缩、降维,从而使模型传递更稳定。采用该方法对谷物的近红外光谱分析模型在不同仪器之间进行传递研究。结果表明,该方法能消除仪器间的大部分差异,较好地实现模型传递效果。与正交信号校正法(orthogonal signal correction,OSC)、蒙特卡罗结合无用信息变量消除法(Monte Carlo uninformative variable elimination,MCUVE)、竞争自适应重加权采样法(competitive adaptive reweighted sampling,CARS)的比较表明,SCARS不仅在传递精度上能取得比OSC、MCUVE及CARS更好的效果,而且能有效地对光谱数据进行压缩,简化并优化传递过程。  相似文献   

4.
近红外(NIR)光谱一般具有较多的波长变量数,对其直接或间接地进行变量选择是提高模型稳定性能及预测性能的关键。最小角回归(LAR)是一种相对较新和有效的机器学习算法,常用于进行回归分析和变量选择。面向光谱建模应用,提出一种LAR结合遗传偏最小二乘法(GA-PLS)的变量选择方法,可有效筛选出少数特征波长点。首先在全光谱区利用LAR消除变量间的共线性得到初筛波长点,然后用GA-PLS对LAR筛选出的波长点进一步优选从而得到最终建模用的特征波长点。为验证本文方法的有效性,以药片和汽油的近红外光谱回归分析作为应用案例,对原光谱进行预处理后,采用该方法进行变量筛选,然后分别建模其中的活性成分含量和C10含量。结果显示,在这两个应用中,最终优化得到的特征波长点数均只需七个,而两者的预测决定系数R2p分别达到0.933 9和0.951 9,与全光谱、无信息变量消除法(UVE)和连续投影算法(SPA)等方法相比,特征波长点更少,同时R2p和预测均方根误差RMSEP值更优。因此,LAR结合GA-PLS,能有效地从近红外光谱中选择出信息变量从而减少建模波数,提高预测精度,拥有较好的模型解释性。该方法可为特定领域的专用光谱仪设计提供有效的波长筛选工具。  相似文献   

5.
以66个小麦样品为试验材料,研究岭回归方法在近红外光谱定量分析中的应用。用44个小麦样品的近红外光谱数据建立测定蛋白质含量的近红外-岭回归模型,预测其余22个小麦样品的蛋白质含量。预测结果与凯氏定氮法分析结果(化学分析值)的平均相对误差为1.518%,与偏最小二乘法(PLS)预测结果进行比较,显示岭回归方法可用于近红外光谱定量分析;进一步,为了减少无关信息对定量分析模型预测能力的干扰,一种有效的方法就是进行波长信息的选择。从1297个波长点中优选出4个波长点,利用这4个波长点处的光谱信息建立近红外-岭回归模型预测22个样品的蛋白质含量,预测结果与凯氏定氮法分析结果之间的平均相对误差为1.37%,相关系数达到0.9817。结果表明岭回归方法从大量光谱信息中筛选出了最重要的波长信息、不仅简化了模型,有效的减少了光谱信息共线性的干扰,而且对特定分析选择出适用的波长对指导设计专用近红外定量分析仪器亦有实际意义。  相似文献   

6.
介绍了运用MAXR回归法建立傅里叶变换近红外光谱定量分析模型的原理和方法。以此方法,由Matlab语言设计程序,进行近红外光谱定量分析建模的波长信息选择。并以小麦样品为实验材料,建立了蛋白质含量的近红外光谱定量分析模型,其中优选出2个和3个波长点处光谱信息建立的多元回归模型的预测结果与凯氏定氮法分析结果相关系数分别为0.977 1和0.976 5,标准差分别为0.335和0.340。MAXR回归法在进行波长信息,选择时可建立分别包含1,2,…,k个波长点信息的最优回归模型,且计算量适中,因此是一种实用的选择“最优”波长信息的回归方法。该方法不仅可少而精选择波长信息,建立抗共线性信息干扰的光谱定量分析模型,而且对于特定样品、特定待分析组分,选择最优波长信息建模分析的工作,可指导专用近红外分析仪器的设计。  相似文献   

7.
使用近红外光谱鉴别蚕茧雌雄设备成本较高,挑选有用特征可以减少成本.雌雄蚕茧的近红外光谱存在着共线性的关系,因此提出了一种包裹式的特征选择方法,基于支持向量机的自助重加权采样(BRS-SVM)的特征选择方法.使用NirQuest512近红外光谱仪采集了蚕茧的漫透射近红外光谱.用试验集的全波段建模得到特征重要度热图,并通过...  相似文献   

8.
在近红外光谱分析过程中,单台仪器在不同时间的波长变化及多台仪器间的波长一致与否会对化学计量学定标模型的校正及传递效果产生影响,上述问题可以统一为波长漂移对定标模型的影响.以分析小麦粉中粗蛋白含量为例,首先结合不同谱区光谱数据,利用偏最小二乘回归(PLSR)方法建立了两个定标模型.再由计算机生成不同类型、不同幅度的波长漂...  相似文献   

9.
提出了一种以样品光谱类间相关系数之和最小为准则进行光谱波长逐步筛选的方法(stepwise selection basing on minimum sum of correlation coefficients, SMCC),以类间距离与类内距离和的比值最大化(符合分析者主观预期目标)作为定性分析中特征波长筛选效果的评价依据,并使用红塔集团提供的2012年17种不同类型工业分级烟叶作为试验样品,以验证筛选方法的有效性。研究表明,采用CO1分级烟叶光谱作为参照类别,筛选出10个特征波长点:采用特征波长计算得到的类内欧氏距离的平均值为采用全部波长计算得到的平均值的1.69倍,采用特征波长计算得到的类间欧氏距离的平均值为采用全部波长计算得到的平均值的3.70倍,采用特征波长计算得到的类间欧氏距离与类内欧氏距离和的比值的平均值为采用全部波长计算得到的平均值的2.21倍。特征波长的类间与类内欧氏距离和的比值增大,说明筛选出来的特征波长能更加有效的表达不同类间的远近关系以及同一类内的离散度,SMCC算法是一种有效的、可应用于近红外光谱定性分析中的特征波长筛选方法。  相似文献   

10.
基于竞争性自适应重加权算法(CARS)和相关系数法(CA)特征波长选择方法,提出了利用可见-近红外高光谱成像技术检测番茄叶片灰霉病的方法。首先获取380~1 023 nm波段范围内80个染病和80个健康番茄叶片的高光谱图像,然后提取染病和健康叶片感兴趣区域(ROI)的光谱反射率值,作为番茄叶片灰霉病鉴别模型的输入来建立支持向量机(SVM)鉴别模型,训练集和验证集的鉴别率都是100%。研究进一步通过CARS和CA提取特征波长,分别得到5个(554, 694, 696, 738和880 nm)和4个(527, 555, 571和633 nm)特征波长,然后分别建立CARS-SVM和CA-SVM鉴别模型。结果显示,CARS-SVM模型中训练集和验证集的鉴别率都是100%,CA-SVM模型中训练集和验证集的鉴别率分别是91.59%和92.45%。以上结果说明了从可见-近红外高光谱图像中提取的光谱反射率值用于检测番茄叶片的灰霉病是可行的。  相似文献   

11.
一种基于SCARS策略的近红外特征波长选择方法及其应用   总被引:4,自引:0,他引:4  
针对近红外光谱数据的内在特点,提出了一种基于稳定性竞争自适应重加权采样(stability competitive adaptive reweighted sampling, SCARS)策略的近红外特征波长优选方法。该方法以PLS模型回归系数的稳定性作为变量选择的依据,其过程包含多次循环迭代,每次循环均首先计算相应变量的稳定性,而后通过强制变量筛选以及自适应重加权采样技术(ARS)进行变量筛选;最后对每次循环后所得变量子集建立PLS模型并计算交互验证均方根误差(RMSECV),将RMSECV值最小的集合作为最优变量子集。利用饲料蛋白固态发酵过程近红外光谱数据集对所提方法进行了验证,并与基于PLS的蒙特卡罗无信息变量消除法(MC-UVE)和竞争自适应重加权采样(CARS)方法所得结果进行了比较。试验结果显示: 建立在SCARS方法优选的21个特征波长变量基础上的PLS模型预测效果更好,其预测均方根误差(RMSEP)和相关系数(Rp)分别为0.054 3和0.990 8;该优选策略能有效地增强固态发酵光谱数据特征波长变量选择的准确性和稳定性,提高了模型的预测精度,具有一定的应用价值。  相似文献   

12.
利用神经网络提高偏最小二乘法的NIR多组分分析精度   总被引:4,自引:2,他引:2  
提出了一种神经网络(ANN)和偏最小二乘法(PLS)结合的新的近红外(NIR)多组分分析法。该方法首先把训练样本中待测组分涵盖的浓度区间分成若干个子区间,利用各个子区间的训练样本分别建立PLS校正模型,然后利用ANN对未知样本进行分类,判断其所属的浓度子区间,应用对应子区间上的校正模型计算预测样本的组分浓度。和传统的PLS比较,此方法改善了模型的适应性,显著地提高了预测精度。实验及数据处理结果证明了本方法的有效性。  相似文献   

13.
针对近红外光谱波长选择问题,在团队进步算法(TPA)的基础上,提出一种改进团队进步算法(iTPA)的波长变量选择方法,将分子光谱的波段按照与其相应的理化值建模得到的评价值函数大小降序排列,顺序分为精英组、普通组和垃圾回收组。当新生波段选择学习行为时,若其产生于普通组,则需要向精英组样板的方向调节;若其产生于精英组,则需要改进其更新方向,向垃圾回收组样板的反方向调节。垃圾回收组成员的评价值不像精英组和普通组随着更新的过程一直上升,而是一直处于极低的状态,为产生于精英组的新生波段在学习时提供一个准确的更新方向,从而提升算法的全局寻优能力。通过不断的迭代更新,逐步提升整体评价值,最终选取评价值最高的波段作为筛选波段。该算法对玉米的淀粉和蛋白质含量数据集进行了实验测试,并与TPA、遗传算法(GA)、主成分分析(PCA)以及全谱方法进行了对比。实验结果表明,所提算法能够找出全谱范围内波长的最优组合,并且可以解释各含量的化学特性。玉米淀粉数据集运行的效果相比于全光谱,变量个数从700个减少到17.55个左右(50次试验求平均),模型的RMSEC从0.335 7降到0.260 9,校正集预测精度提升了22.3%,模型的RMSEP从0.391 4下降到0.334 4左右,预测集预测精度提升了14.6%;在玉米蛋白质数据集运行的效果相比于全光谱,变量个数从700个减少到19.6个左右(50次试验求平均),模型的RMSEC从0.147 4降到0.101 9,校正集预测精度提升了30.1%,模型的RMSEP从0.178 9下降到0.117 7,预测集预测精度提升了34.2%。  相似文献   

14.
近红外光谱数据量大,需要进行压缩,以降低建立光谱校正模型的计算复杂度,提高模型精度和稳健性。为此,提出了一种基于离散萤火虫算法(discrete firefly algorithm)的近红外光谱波长变量筛选方法。首先采用蒙特卡罗方法剔除异常值,并应用Kennard-Stone法进行校正样本的选择。对通用萤火虫算法进行离散化处理,改进了吸引度的自适应公式,在移动公式中增加了牵引权重,以适应离散化处理的影响和优化算法,并在离散萤火虫算法中加入精英保留策略,加快算法的收敛速度。实验中找到DFA算法中的各项参数中的最佳值。通过离散萤火虫算法优选波长变量,建立发酵液中丁二酸含量的近红外光谱偏最小二乘回归(partial least squares regression)校正模型。与标准遗传算法(genetic algorithm)优选波长方法进行了比较。结果显示,基于离散萤火虫算法的波长优选方法所建立的PLS校正模型,其校正集的相关系数(R2c)为0.986,RMSEC为0.409,预测集的相关系数(R2p)为0.969,RMSEP为0.458,模型稳健性和精度都要优于全光谱建模以及遗传算法波长优选方法。显示了DFA在近红外光谱数据筛选方面的优越性。  相似文献   

15.
近红外光谱预测稻谷水分含量特征谱区选择及其效率分析   总被引:1,自引:0,他引:1  
对364份水分含量在2.24%~32.66%之间的“冈优916”稻谷样品,经均值中心化、一阶微分、标准归一化和多元散射校正等预处理后,采用分段间隔法、组合分段法、滑动窗口法和反向分段法等进行特征谱区选择,分别使用偏最小二乘法(PLS)和主成分回归(PCR)两种定量分析方法,获得稻谷含水量近红外光谱预测模型最佳的特征谱区。首次给出了分段间隔法、组合分段法、滑动窗口法和反向分段法等传统的特征谱区选择方法的计算复杂度的计算公式,并对比分析了这几种特征谱区选择方法的程序运行效率。结果表明:采用PLS建模对稻谷含水量光谱的预测性能优于PCR建模,但PLS建模的效率低于PCR建模;在PLS建模中,采用反向分段法对稻谷光谱含水量的预测性能最好,其预测集的相关系数RP为0.995 6,预测均方根偏差RMSEP为0.78%;其次是滑动窗口法,其RP为0.994 3,RMSEP为0.89%;但这两种特征谱区选择方法的程序运行效率较低,反向分段法的平均运行时间为4.87 h,滑动窗口法的平均运行时间为29.82 h。该研究结果为今后在并行计算或分布式计算上开发近红外光谱预测模型的快速算法提供参考。  相似文献   

16.
近红外技术广泛应用于食品、药品等生产过程和产品质量检测,具有样品无需预处理、成本低、无破坏性、测定速度快等优点。但是,全光谱数据维数高、冗余信息多,直接应用于建模会导致模型复杂性高、稳定性差等问题。siPLS是最常见的光谱数据降维方法,但是难以处理光谱数据的共线性问题。LASSO是一种相对新的数据降维方法,但在小样本应用中具有不稳定性。针对siPLS和LASSO在近红外光谱数据应用中存在的问题,提出了基于siPLS-LASSO的近红外特征波长选择方法,并将其应用于秸秆饲料蛋白固态发酵过程pH值监测。该方法首先采用siPLS算法,实现对光谱波长最佳联合子区间的优选;然后,对优选联合子区间使用LASSO算法进行特征波长选择,在此基础上建立PLS校正模型。同时,将siPLS-LASSO方法与其他传统特征波长选择方法进行了对比。结果表明:建立在siPLS-LASSO方法优选33个特征波长基础上的PLS模型预测结果更好,其预测方差(RMSEP)和相关系数(Rp)分别为0.071 1和0.980 8;所提siPLS-LASSO方法有效选取了特征波长,提高了模型预测性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号