首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 93 毫秒
1.
近红外光谱分析技术对检测样品无损伤且检测速度快、精度高,因此被广泛应用在了药品检测、石油化工等领域,尤其近年来机器学习和深度学习建模方法的深入应用使其具备了更准确的检测性能.然而,样品的近红外光谱数据具有比较高的维度且存在谱间重合、共线性和噪声等问题,对近红外光谱模型的性能产生消极影响,此时样品有效特征波长的筛选极为重...  相似文献   

2.
基于支持向量机(SVM)特征加权/选择的光谱匹配算法   总被引:1,自引:1,他引:1  
高光谱数据波段多、冗余大,为了提高数据的分析效率和精度,降维是一个关键步骤。文章在文献(参考了后面的文献[18])研究的基础上,引入了迭代SVM特征选择/加权算法,为多目标遗传优化获取最优参考光谱提供一个包含有效分类信息的低维空间。基于Indiana-AVIRIS高光谱数据的实验表明,特征加权/选择的引入使光谱匹配分类精度提高了13%(相对于无特征选择的情况而言)。文章还根据光谱样本距SVM分类面的远近,定义和计算了局部权重,不仅细致刻画了同类光谱样本在局部特征空间中的分布,还使光谱相似度的计算更加灵活化,精度提高幅度达到了17%(相对于无特征选择的情况而言)。文章研究方法的提出推进了SVM在光谱数据分析中的应用深度和广度。  相似文献   

3.
通过消除光谱中的冗余信息变量,挑选出代表样品性质的特征变量代替全谱建立定量模型,可以提高近红外分析结果的准确性。基于进化论中适者生存原理的竞争性自适应重加权采样(CARS)算法因具有计算速度快、筛选得到的特征波长少等优点,在近红外特征变量筛选方面得到了广泛的应用。然而该方法在计算过程中容易出现校正集和验证集结果不一致情况。这是因为算法过于强调校正集交叉验证结果,且并未考虑相邻变量之间的协同作用。为了建立更加稳健的变量筛选方法,通过结合“窗口”以及CARS算法的优势,提出了一种基于窗口竞争性自适应重加权采样(WCARS)策略的近红外特征变量筛选方法,并将其应用于复杂植物样品近红外光谱与其化学成分含量之间的建模分析。采用WCARS方法可以实现准确定量分析,且通过与竞争性自适应重加权采样(CARS)方法结果相比较,WCARS方法得到的校正集和预测集结果一致,在一定程度上减少了过拟合问题的出现。该策略能有效增强特征变量选择的稳健性,提高了定量模型的可信度,具有一定的应用价值。  相似文献   

4.
提出了一种以样品光谱类间相关系数之和最小为准则进行光谱波长逐步筛选的方法(stepwise selection basing on minimum sum of correlation coefficients, SMCC),以类间距离与类内距离和的比值最大化(符合分析者主观预期目标)作为定性分析中特征波长筛选效果的评价依据,并使用红塔集团提供的2012年17种不同类型工业分级烟叶作为试验样品,以验证筛选方法的有效性。研究表明,采用CO1分级烟叶光谱作为参照类别,筛选出10个特征波长点:采用特征波长计算得到的类内欧氏距离的平均值为采用全部波长计算得到的平均值的1.69倍,采用特征波长计算得到的类间欧氏距离的平均值为采用全部波长计算得到的平均值的3.70倍,采用特征波长计算得到的类间欧氏距离与类内欧氏距离和的比值的平均值为采用全部波长计算得到的平均值的2.21倍。特征波长的类间与类内欧氏距离和的比值增大,说明筛选出来的特征波长能更加有效的表达不同类间的远近关系以及同一类内的离散度,SMCC算法是一种有效的、可应用于近红外光谱定性分析中的特征波长筛选方法。  相似文献   

5.
近红外光谱分析技术虽在多领域获得广泛应用,但应用时仍以实验室仪器为主,目前光谱仪存在体积大、功耗高、价格贵等问题,有能力购买与使用此类仪器的主要是高校、科研院所、大型企业等,常用的基于傅里叶变换或光栅原理的光谱仪价格通常高达几十万元,超出中小企业、普通百姓的经济承受能力,因此近红外光谱仪的进一步推广应用仍有难度.降低仪...  相似文献   

6.
在近红外光谱的定量分析中,由于仪器的精密程度越来越高,采集的光谱数据通常具有很高的维度.因此,波长选择对于剔除噪声及冗余变量,简化模型,提高模型的预测性能是必不可少的.近红外光谱特征波长选择方法众多,但变量间的多重共线性问题仍是导致模型效果较差的一个关键问题.变量间共线性可以通过相关系数进行分析,当相关系数高于0.8,...  相似文献   

7.
岩石含水量是影响岩石物理、化学和力学特性的一个重要指标。在岩土工程、隧道工程等领域,岩石含水量的大小是诱发灾变和病害的关键原因。与传统方法相比,利用近红外光谱(NIRS)特征检测岩石含水量,具有无损、定量的明显优势,其难点和关键是近红外光谱的特征选择。针对该问题,进行了室内实验,研究不同含水量下的岩石近红外光谱的特征选择。特征选择方法中的Filter法,利用样本数据内在的特点,评价特征的重要程度,增强了特征与类的相关性,同时削减了特征之间的相关性,具有复杂度低、直观、效率高、普适性强的优点,符合该研究的数据特点。因此,选用Filter型的依赖性度量法进行特征选择。室内实验中,首先制备11种不同含水量的砂岩试样,并分别采集了前后左右4个测试点处的共计44条近红外光谱曲线;然后,利用一阶导数法对光谱进行预处理,基于此,选择1 400和1 930 nm谱段进行光谱特征分析,并分别提取2个谱段处的峰面积、峰高、半高宽、左肩宽度、右肩宽度、左右肩宽比共计6个初始特征变量;考虑到6个初始特征变量的量纲不同,且变量之间的变化幅度不同,对原始数据进行正规化变换,消除量纲和变化幅度不同带来的影响;接着,根据自变量的筛选原则,去掉自变量之间具有强线性相关的冗余变量;然后,利用依赖性度量法中的统计相关系数作为相关程度的度量标准,分析了初始特征变量之间以及初始特征变量与含水量之间的相关程度,并得到了2个强相关谱段处的最优特征变量;最后,在强相关谱段处分别构建了多元回归模型,并对模型进行了检验分析。研究结果表明:(1)波长1 400和1 930 nm附近的近红外光谱吸收峰特征与岩石含水量有明显相关性;(2)波长1 400 nm处的峰高、右肩宽度、左肩宽度与含水量线性相关性明显;波长1 930 nm处的峰高、右肩宽度与含水量线性相关性明显;(3)多元线性回归模型能够较精确表达含水量与近红外光谱之间的相关性,利用该模型可实现基于近红外光谱特征的含水岩石含水量预测,为利用近红外光谱实现动态监测与评估岩石含水量提供基础建模数据。  相似文献   

8.
针对天然气燃烧过程的近红外光谱数据,采用了一种融合波长选择和异常光谱检测的定量分析方法。该方法根据偏最小二乘(PLS)模型的系数及预测误差的统计分布,在实现波长选择的同时,完成异常光谱样本的检测。与PLS、先用留一法将异常样本删除后PLS建模(LOO-PLS)、基于PLS的无信息变量消除法(UVE-PLS)以及先用留一法将异常样本删除后使用UVE-PLS建模(LOO-UVE-PLS)相比较,该方法将甲烷预测模型的预测均方根误差(RMSEP)分别降低了14.33%,14.33%,10.96%和12.21%;将一氧化碳预测模型的RMSEP分别降低了67.26%,72.58%,11.32%和4.52%;将二氧化碳预测模型的RMSEP分别降低了5.95%,19.7%,36.71%和4.04%。实验表明,该方法建立的分析物预测模型具有较高的预测能力和较好的稳健性,在大大减少所选波长数量,降低模型复杂度的同时,还能有效地检测出异常光谱样本,减小两者之间的相互影响。  相似文献   

9.
在近红外光谱数据定量建模中,数据的高冗余和高噪严重影响了建模的稳健性和精确性,因此提出了一种特征分层结合改进粒子群算法(PSO)的特征光谱选择方法。首先通过互信息度量特征的重要性得分,并按特征的重要性降序排序,有效避免了因采用降维方法得到主成分而引起的丢失重要信息的问题。其次,引入了跳跃度概念,并构造了一种特征分层的方法,重要性程度相似的特征并入同一个特征子集,将降序排列的特征集分割为不同的特征子集,避免了筛选特征过程中因人为设定特征重要性得分阈值而导致的不确定性。最后,采用收敛速度快、控制参数少的粒子群算法作为最优特征子集的优化方法,同时对粒子群算法做了两方面改进:引入混沌模型增加种群的多样性,提高了PSO的全局搜索能力,避免陷入局部最优;将特征数目引入到适应度函数中,在迭代前期通过惩罚因子调节特征数目对适应度函数的影响,提高了算法的适应能力。将分层后的数据以特征子集为单位,依次累加并作为改进粒子群算法的输入,从而选择出高辨别力的特征子集。以烟碱指标为例进行了特征选择过程的描述,实验采用尼高力公司的Antaris Ⅱ近红外光谱仪进行近红外光谱数据的采集,光谱扫描范围为4 000~10 000 cm-1。首先,利用互信息理论计算全光谱1 557个特征对待测指标定量建模的重要性得分,得分取30次实验的均值。其次,将所有特征按照重要性得分降序排序,计算所有特征的跳跃度,依据跳跃度寻找特征分层的临界点,将特征划分到不同的特征层中,构建了包含8个特征子集的特征集合S={S1, S2, S3, S4, S5, S6, S7, S8}。然后,依次将特征子集S1,{S1, S2},{S1, S2, S3},…,{S1, S2, S3, S4, S5, S6, S7, S8}作为初始粒子群的候选集,以R/(1+RMSEP)作为特征子集优劣的评价标准,各自重复实验50次,比值最大的特征子集即为最优特征子集。为验证该算法的有效性,选取了具有代表性烟叶近红外光谱数据作为训练集和测试集,建立了烟碱、总糖两个指标的PLS定量模型,并分别与全光谱、分层后的特征光谱、粒子群算法选出的特征光谱进行了比较。仿真结果表明,本算法所选特征烟碱、总糖的建模相关系数r分别为0.988 5和0.982 2,交互验证均方差RMSECV分别为0.098 4和0.889 3,预测均方根误差RMSEP分别为0.100 7和0.901 6,模型准确率均明显高于其他三种方法。从所选特征数来看,该算法所选特征数最少,有效剔除了原特征集中的弱相关和噪声、冗余信息,所建模型的主因子数最少,降低了模型的复杂性,模型更加稳健,适应性更广。  相似文献   

10.
近红外技术广泛应用于食品、药品等生产过程和产品质量检测,具有样品无需预处理、成本低、无破坏性、测定速度快等优点。但是,全光谱数据维数高、冗余信息多,直接应用于建模会导致模型复杂性高、稳定性差等问题。siPLS是最常见的光谱数据降维方法,但是难以处理光谱数据的共线性问题。LASSO是一种相对新的数据降维方法,但在小样本应用中具有不稳定性。针对siPLS和LASSO在近红外光谱数据应用中存在的问题,提出了基于siPLS-LASSO的近红外特征波长选择方法,并将其应用于秸秆饲料蛋白固态发酵过程pH值监测。该方法首先采用siPLS算法,实现对光谱波长最佳联合子区间的优选;然后,对优选联合子区间使用LASSO算法进行特征波长选择,在此基础上建立PLS校正模型。同时,将siPLS-LASSO方法与其他传统特征波长选择方法进行了对比。结果表明:建立在siPLS-LASSO方法优选33个特征波长基础上的PLS模型预测结果更好,其预测方差(RMSEP)和相关系数(Rp)分别为0.071 1和0.980 8;所提siPLS-LASSO方法有效选取了特征波长,提高了模型预测性能。  相似文献   

11.
针对高维空间下获取最优特征子集异常复杂和模型识别准确率较低的问题,提出了基于特征分层选择和融合度相结合的近红外光谱多类识别度量算法。首先引入跳跃度,构造了一种特征分层方法,将所有特征依据对样本的重要性程度划分不同的特征子集,从而避免了从原始特征数据逐个剔除无关特征构建特征子集的繁琐过程;同时又改进了样本的融合度,将其代替K最近邻分类器(KNN)中依据概率进行类别判断的方式,提高了分类器的识别精度,较好地解决了多类识别准确率较低的问题。为验证该算法的有效性,选取五类具有代表性382个烟叶样品为实验对象,构建了烟叶产地识别度量模型,并选取64个样本进行了模型测试,以预测均方根误差(RMSEP)、交互验证均方差(RMSECV)和相关系数(r)作为模型稳健性的评价指标,以产地识别准确率作为算法优劣评价标准。仿真实验结果表明,利用该算法构建的模型具有较低的RMSEP(0.117),RMSECV(0.106)和较高的r(0.973),平均识别准确率达到98.44%,性能明显优于其他算法,该算法对于高维光谱数据具有良好的识别性能。  相似文献   

12.
在近红外光谱分析技术中,建立一个准确、稳健的定量模型至关重要。全光谱建模会增加建模和预测时间,降低模型的稳健性和预测精度,因此有效的变量选择方法对于模型构建至关重要。针对该问题,提出了基于互信息的遗传算法(GAs-MI)对特征变量进行选择,互信息筛选掉大量无关信息和冗余信息,遗传算法进一步选择出高辨别力的特征;并在遗传算法的变异过程中引入Shapley值方法,减少了人为设定参数的随机性。为了验证算法的有效性,选取有代表性的273个烟叶样本为实验材料,随机选择其中182个样本实现对烟叶总烟碱的PLS定量建模,剩余样本作为测试集,以相关系数(R)、交互验证均方差(RMSECV)和预测均方根误差(RMSEP)为模型评价指标。实验结果表明,通过该方法选择的波长建立的模型更加简单、预测能力更强。  相似文献   

13.
针对近红外光谱波长选择问题,在团队进步算法(TPA)的基础上,提出一种改进团队进步算法(iTPA)的波长变量选择方法,将分子光谱的波段按照与其相应的理化值建模得到的评价值函数大小降序排列,顺序分为精英组、普通组和垃圾回收组。当新生波段选择学习行为时,若其产生于普通组,则需要向精英组样板的方向调节;若其产生于精英组,则需要改进其更新方向,向垃圾回收组样板的反方向调节。垃圾回收组成员的评价值不像精英组和普通组随着更新的过程一直上升,而是一直处于极低的状态,为产生于精英组的新生波段在学习时提供一个准确的更新方向,从而提升算法的全局寻优能力。通过不断的迭代更新,逐步提升整体评价值,最终选取评价值最高的波段作为筛选波段。该算法对玉米的淀粉和蛋白质含量数据集进行了实验测试,并与TPA、遗传算法(GA)、主成分分析(PCA)以及全谱方法进行了对比。实验结果表明,所提算法能够找出全谱范围内波长的最优组合,并且可以解释各含量的化学特性。玉米淀粉数据集运行的效果相比于全光谱,变量个数从700个减少到17.55个左右(50次试验求平均),模型的RMSEC从0.335 7降到0.260 9,校正集预测精度提升了22.3%,模型的RMSEP从0.391 4下降到0.334 4左右,预测集预测精度提升了14.6%;在玉米蛋白质数据集运行的效果相比于全光谱,变量个数从700个减少到19.6个左右(50次试验求平均),模型的RMSEC从0.147 4降到0.101 9,校正集预测精度提升了30.1%,模型的RMSEP从0.178 9下降到0.117 7,预测集预测精度提升了34.2%。  相似文献   

14.
基于KPCA和近红外光谱的鉴别玉米单倍体方法研究   总被引:1,自引:0,他引:1  
玉米的单倍体鉴别技术对玉米单倍体育种技术非常重要。近红外光谱分析技术以其操作简便,可在线分析监测,速度快,无损,测试成本低等特点在农业领域备受关注,应用广泛。实验首先通过美国JDSU公司的近红外光谱仪采集由国家玉米改良中心提供的玉米种子单倍体、多倍体的近红外光谱数据,然后对获得的原始数据做平滑(smoothing)、一阶导(first derivative,FD)和矢量归一化(vector normalization,VN)预处理以消除其噪声影响,再采用核函数为高斯核函数(Gaussian kernel function)的核主成分分析(kernel principal components analysis, KPCA)的方法将玉米种子的近红外光谱数据映射到高维空间中,并对映射后的数据做非线性特征提取,然后应用支持向量机(support vector machines, SVM)对提取的玉米种子单倍体、多倍体光谱数据的非线性特征建立分类模型,最后输入测试数据进行玉米单倍体、多倍体的分类鉴别测试,预测玉米种子是否是单倍体。设计了两组对比试验,其正确识别率的平均值分别达到95%和93.57%。在该实验中, 基于KPCA的玉米单倍体识别算法的性能表现较好、识别率较高。通过两组对比实验,证明了玉米种子的近红外光谱数据更适于先将其映射于高维空间中进行特征提取,再对提取的特征进行建模、分类分析。该实验为玉米单倍体识别技术提供了新的思路和方法。  相似文献   

15.
近红外光谱数据量大,需要进行压缩,以降低建立光谱校正模型的计算复杂度,提高模型精度和稳健性。为此,提出了一种基于离散萤火虫算法(discrete firefly algorithm)的近红外光谱波长变量筛选方法。首先采用蒙特卡罗方法剔除异常值,并应用Kennard-Stone法进行校正样本的选择。对通用萤火虫算法进行离散化处理,改进了吸引度的自适应公式,在移动公式中增加了牵引权重,以适应离散化处理的影响和优化算法,并在离散萤火虫算法中加入精英保留策略,加快算法的收敛速度。实验中找到DFA算法中的各项参数中的最佳值。通过离散萤火虫算法优选波长变量,建立发酵液中丁二酸含量的近红外光谱偏最小二乘回归(partial least squares regression)校正模型。与标准遗传算法(genetic algorithm)优选波长方法进行了比较。结果显示,基于离散萤火虫算法的波长优选方法所建立的PLS校正模型,其校正集的相关系数(R2c)为0.986,RMSEC为0.409,预测集的相关系数(R2p)为0.969,RMSEP为0.458,模型稳健性和精度都要优于全光谱建模以及遗传算法波长优选方法。显示了DFA在近红外光谱数据筛选方面的优越性。  相似文献   

16.
波长选择算法在近红外光谱法中药有效成分测量中的应用   总被引:21,自引:5,他引:16  
建立基于仪器分析方法的质量标准是中药进入国际市场的必要条件。近红外光谱技术以其能够反映样品的多种信息、易于在线应用的优势,应用于中成药生产的在线质量监控,可以提高中成药的质量控制标准,加快中药现代化的进程。但在近红外光谱检测中存在着各成分谱图重叠严重,光谱信息冗余,特征吸收区域不明显的问题,需要对采集到的波长进行优选,以达到提高模型预测精度和简化模型的目的。从近红外光谱方法测量中药有效成分的基础研究入手,以冰片含量的检测为例,尝试采用遗传算法与模拟退火算法结合的模拟退火遗传算法及物理意义相对明确的多链逐步选择法对校正模型的波长进行优选。结果表明,波长选择的方法可以使模型采用的波长数减少的同时提高预测精度,波长选择最多可将波长数减少84%,预测精度提高47.6%。  相似文献   

17.
为了快速检测玉米品种类型,基于支持向量机(SVM)和近红外光谱联合建立玉米品种的分类模型。以郑单958、先玉335、京科968、登海605和德美亚等五个品种共计293个样本为研究对象,对采集的近红外光谱进行标准正态变量变换(SNV)处理后使用主成分分析法(PCA)对光谱数据进行降维处理。按照6∶1比例,随机选取251个样本为训练集,42个样本作为测试集,探讨贝叶斯优化算法(BO)对SVM模型性能的影响。分别使用网格搜索(GS)、遗传算法(GA)和BO算法等三种方法对SVM模型的两个重要参数惩罚因子C和径向基核函数参数γ进行寻优。选择各模型十折交叉验证识别准确率最高时对应的惩罚因子和核参数作为建模参数,建立SVM分类模型。将使用BO算法建立的SVM分类模型与使用GS和GA进行参数寻优后建立的模型性能进行比对。实验发现,使用BO优化的SVM分类模型相比于其他两种优化算法得到的SVM模型性能具有显著优势,测试集的识别准确率可达到100%。说明使用BO算法寻优的SVM模型参数是全局最优参数,其他两种优化算法寻优的参数可能陷入了局部最优,从而导致模型性能表现不佳。在进行PCA降维前后的光谱数据上分别建立BO-SVM模型,结果表明,BO算法对于高维数据优化效果不佳,更适用于低维数据。对于不同样本类别间数量不均衡导致模型性能表现不佳的问题,通过剔除郑丹958和先玉335两类数量较少的样本,使用剩余三个类别,共计248个样本重新建立SVM模型,实验发现,剔除两类小样本之后,各个模型在测试集上的性能均有提升,说明对于类间样本数量不均衡问题,某类样本数量越多,对于模型参数的修正就越细腻,模型对该类的拟合效果就越好。研究结果可用于玉米品种的快速鉴别,也可为基于近红外光谱的其他农产品分类和产地鉴别提供参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号