首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 490 毫秒
1.
近红外光谱具有高维、高冗余、非线性的特性,严重影响了样本之间的相似性度量的精准,故而提出了一种基于Wasserstein散度的t分布随机近邻嵌入算法(Wt-SNE)。基于流形学习算法思想,利用高斯分布将高维数据的距离转换为概率分布,使用更加偏重长尾分布的方式t分布表示低维空间中对应数据点的概率分布。将高维数据的概率分布嵌入映射至低维度空间,重构低维流形结构,引入Wasserstein散度度量两个空间内概率分布的差异,通过降低散度值来提高两个分布的相似度,以此来实现高维数据降维处理。为验证Wt-SNE算法的有效性,首先对烟叶近红外光谱数据进行降维投影,并与PCA、 LPP、 t-SNE算法比较,结果表明Wt-SNE算法降维后的数据,在低维空间内样本类别边界更加明显。其次,采用KNN、 SVM和PLS-DA分类器对降维后的数据进行烟叶产地预测,准确率分别为93.8%、 91.5%、 92.7%,表明降维后的数据不仅重构了原始光谱的空间结构而且保留了样本间的相似度关系。最后,选取某一卷烟叶组配方中的烟叶进行单料目标烟叶的替换,根据备选样本与目标样本之间的马氏距离选取替换样本。实验表明,Wt-...  相似文献   

2.
LAMOST-DR1是郭守敬望远镜正式巡天发布的首批数据,其数量超过目前世界上所有已知恒星巡天项目的光谱总数。这为进一步扩大特殊和稀少天体如激变变星的数量提供了样本,同时也对天文数据处理方法和技术提出了更高的要求。针对LAMOST的数据特点,提出一种能够在海量天体光谱中自动、快速发现激变变星的方法。该方法使用拉普拉斯特征映射对天体光谱进行降维和重构。结果表明不同类别的天体光谱在拉普拉斯空间中能够得到较明显的区分。在使用粒子群算法对神经网络的参数进行优化后,对LAMOST-DR1的全部数据进行了自动识别。实验共发现了7个激变变星,经过证认,其中2个是矮新星,2个是类新星,1个是高度极化的武仙座AM型。这些光谱,补充了现有的激变变星光谱库。本文验证了拉普拉斯特征映射对天体光谱进行特征提取的有效性,为高维光谱进行降维提供了另一途径。在郭守敬望远镜正式发布的数据中寻找激变变星的首次尝试,实验结果表明该自动化的方法鲁棒性好,速度快,准确率高。该方法也可用于其他大型巡天望远镜的海量光谱处理。  相似文献   

3.
恒星光谱分类是恒星光谱分析的重要工作之一。我国大型巡天项目LAMOST能够获得海量的恒星光谱数据,为了对海量恒星光谱数据进行高效分类,特别是对恒星光谱子型数据进行分类,需要研究快速有效的恒星光谱自动分类算法。提出一种基于Transformer特征提取的混合深度学习算法Bert+svm(简记为Besvm)实现A型恒星光谱子型的自动分类。该算法将A型恒星光谱26个线指数作为输入特征,应用Bert模型对26个线指数进行更深层次的学习,通过学习26个线指数的内在关联,进而提取到更有利于A型恒星光谱子型分类的特征。提取好的新特征被输入到分类器算法支持向量机(简记为SVM)中,进而对A型恒星光谱的三个子型A1、 A2和A3进行自动分类。此前,SVM算法在恒星光谱分类任务中已经有过应用,一些衍生的SVM算法在恒星光谱分类任务中也有较高的分类正确率。相比从前应用到恒星光谱分类任务的SVM算法,我们的混合深度学习算法受数据的信噪比影响较小,使用低信噪比数据也能有较高的分类正确率,并且所用数据量较少。通过五组实验验证了该算法的有效性和优越性:实验1用来对比选择优秀的核函数,通过光谱数据的匹配实验,最终选择...  相似文献   

4.
大规模光谱巡天将产生海量的光谱数据,为搜寻一些奇异甚至于未知类型的光谱提供了机会,对这些特殊天体的研究有助于揭示宇宙的演变规律和生命起源,巡天数据的离群数据挖掘有助于这些特殊的光谱的发现。利用线指数对光谱数据进行降维能够在尽可能多的保留光谱物理特征的同时,有效解决高维光谱数据聚类分析中运算复杂度较高的问题。提出了基于线指数特征的海量恒星光谱离群数据挖掘及分析的方法,以恒星光谱的Lick线指数作为光谱数据的特征,利用聚类搜寻离群数据的方法在海量光谱巡天数据搜寻离群数据,以此为基础并给出线指数特征空间内离群光谱数据的分析方法。实验结果证明:(1)以线指数作为光谱的特征值能快速的完成对高维光谱数据的离群数据挖掘,可以解决高维光谱数据运算复杂度高的问题;(2)该方法是在聚类结果上进行的离群数据挖掘,能够有效的挖掘出数量较少的发射线恒星、晚M型恒星、极贫金属星、缺失数据光谱等数据;(3)线指数特征空间的离群数据挖掘可以得到线指数特征空间内特殊恒星的发现规则。本文所提出的基于线指数特征的离群数据挖掘及分析方法可以应用到巡天数据的相关研究中。  相似文献   

5.
天体光谱是天体物理学重要的研究对象,通过光谱可以获取天体的许多物理、化学参数如有效温度、金属丰度、表面重力加速度和视向速度等。白矮主序双星是一类致密的双星系统,对研究致密双星的演化特别是公共包层的演化有着重要的意义。国内外的大型巡天望远镜如美国斯隆望远镜以及中国的郭守敬望远镜,每天都产生大量光谱数据。如此海量的光谱数据无法完全用人工进行分析。因此,使用机器学习方法从海量的天体光谱中自动搜索白矮主序双星光谱,有着非常现实的意义。目前的光谱自动识别方法主要通过对已有的标签样本进行分析,通过训练得到分类器,再对未知目标进行识别。这类方法对样本的数量有明确的要求。白矮主序双星的实测光谱数量有限。若要通过有限的样本集准确学习白矮主序双星的光谱特征,不仅需要扩大样本数量,还需要提高特征提取和分类算法的精度。在前期工作中,通过机器学习等方法在海量巡天数据中识别了一批白矮主序双星的光谱,为该实验提供了数据源。使用对抗神经网络生成新的白矮主序双星光谱,扩大训练数据量至原数据集约两倍的数量,增强了分类模型的泛化能力。通过反贝叶斯学习修正损失函数,将损失函数的大小与样本的方差相关联,抑制了异常数据对模型造成的影响,提升了模型的鲁棒性,解决了由于训练样本集偏差带来的梯度消失以及训练陷入局部最优解等问题。该实验基于Tensorflow深度学习库。使用Tensorflow搭建的生成对抗网络具有较好的鲁棒性,并且封装了内部实现细节,使得算法得以更好地实现。除此之外,由Tensorflow搭建的卷积神经网络在该实验中用于分类准确度测试。实验结果表明,二维卷积神经网络能够利用卷积核有效地提取白矮主序双星的卷积特征并进行分类。基于反贝叶斯学习策略的卷积神经网络分类器在白矮主序双星原始数据及对抗神经网络生成光谱的识别任务中达到了约98.3%的准确率。该方法也可用于在巡天望远镜的海量光谱中搜索其他特殊和稀少天体如激变变星、超新星等。  相似文献   

6.
高光谱图像降维的判别流形学习方法   总被引:1,自引:1,他引:0  
本文提出了一种高光谱图像降维的判别流形学习方法.针对获取的大量遥感对地观测数据存在大量冗余信息的特点,引入改进的流形学习方法对高光谱遥感数据进行降维处理,以提高遥感图像自动分类的总体准确度.该方法充分利用遥感图像自动分类中训练样本的判别信息,将输入样本的类别信息加入到常规流形学习方法的框架中,从本质上提高输出的特征在低维空间中的判别力.同时,引入线性化模型以解决流形学习方法中常见的小样本问题.对高光谱遥感图像自动分类的实验表明,基于判别流形学习的高光谱遥感图像自动分类方法能够显著地提高图像分类准确度.  相似文献   

7.
恒星光谱数据的自动识别与分类是现代巡天望远镜所产生的海量光谱数据处理的一项重要研究内容。针对流量未定标的低分辨率恒星光谱设计了一种有效的自动分类方案,实现恒星光谱的MK分类:光谱型及其次型分类,光度型分类。该方案由三部分实现:(1)连续谱归一化:基于小波技术提取低频信号逼近连续谱的方法;(2)七种光谱型及其次型的分类通过非参数回归方法实现。(3)光度型分类通过基于最近邻的χ2方法实现。实验结果表明该方案能够有效实现恒星光谱的MK分类,光谱型及其次型的分类精度为3.2个光谱次型,Ⅰ-Ⅴ光度型的正确识别率为60%, 次优统计率为78%。该方案训练速度快,方法实现容易,适用于海量恒星光谱自动分类处理系统。  相似文献   

8.
基于高光谱图像技术的苹果粉质化LLE-SVM分类   总被引:3,自引:0,他引:3  
苹果粉质化程度是衡量其内部品质的一个重要因素,采用了高光谱散射图像技术进行苹果粉质化的无损检测。针对高光谱散射图像数据量大的特点,提出了局部线性嵌入(local linear embedded,LLE)和支持向量机(support vector machine,SVM)相结合的用于检测苹果粉质化的新分类方法。LLE是一种通过局部线性关系的联合来揭示全局非线性结构的非线性降维方法,能有效计算高维输入数据在低维空间的嵌入流形。对降维后的高光谱数据采用SVM进行分类。将LLE-SVM分类方法与传统的SVM分类方法比较,仿真结果表明,对高光谱数据而言,用LLE-SVM得到的训练精度高于单纯使用SVM的训练精度;降维前后,分类器的测试精度变化不大,波动范围不超过5%。LLE-SVM为高光谱散射图像技术进行苹果粉质化无损检测提供了一个有效的分类方法。  相似文献   

9.
大规模光谱巡天项目如LAMOST等产生了海量极具研究价值的观测数据,如何对此数量级的数据进行有效的分析是当前的一个研究热点。聚类算法是一类无监督的机器学习算法,可以在不依赖于领域知识的情况下对数据进行处理,发现其中的规律与结构。恒星光谱聚类是天文数据处理中一项非常重要的工作,主要对海量光谱巡天数据按照其物理及化学性质分类。针对LAMOST巡天中的早M型矮恒星的光谱数据,使用多种聚类算法如K-Means,Bisecting K-Means和OPTICS算法做了聚类分析,研究不同聚类算法在早M型恒星数据的表现。聚类算法在一定程度依赖于其使用的距离度量算法,同时研究了欧氏距离、曼哈顿距离、残差分布距离和上述三种聚类算法搭配下的表现。实验结果表明:(1)聚类算法可以很好地辅助分析早M型矮恒星的光谱数据,聚类产生的簇心数据和MK分类吻合得非常好。(2)三种不同聚类算法表现不尽相同,Bisecting K-Means在恒星光谱细分类方面更有优势。(3) 在聚类的同时也会产生一些数量较少的簇,从这些簇中可以发现一些稀有天体候选体,相对而言OPTICS适合用来寻找稀有天体候选体。  相似文献   

10.
天体光谱中蕴含着非常丰富的天体物理信息,通过对光谱的分析,可以得到天体的物理信息、化学成分以及天体的大气参数等。随着LAMOST和SDSS等大规模巡天望远镜的实施,将会产生海量的光谱数据,尤其是LAMOST正式运行后,每个观测夜产生大约2~4万条光谱数据。如此海量的光谱数据对光谱的快速有效的处理提出了更高的要求。恒星光谱的自动分类是光谱处理的一项基本内容,该研究主要工作就是研究海量恒星光谱的自动分类技术。Lick线指数是在天体光谱上定义的一组用以描述光谱中谱线强度的标准指数,代表光谱的物理特性,以每个线指数最突出的吸收线命名,是一个相对较宽的光谱特征。研究了基于Lick线指数的贝叶斯光谱分类方法,对F,G,K三类恒星进行分类。首先,计算各类光谱的Lick线指数作为特征向量,然后利用贝叶斯分类算法对三类恒星进行分类。针对海量光谱的情况,基于Hadoop平台实现了Lick线指数的计算,以及利用贝叶斯决策进行光谱分类的方法。利用Hadoop HDFS高吞吐率和高容错性的特点,结合Hadoop MapReduce编程模型的并行优势,提高了对大规模光谱数据的分析和处理效率。该研究的创新点为:(1) 以Lick线指数作为特征,基于贝叶斯算法实现恒星光谱分类;(2) 基于Hadoop MapReduce分布式计算框架实现Lick线指数的并行计算以及贝叶斯分类过程的并行化。  相似文献   

11.
为了使降维结果更好地体现高光谱数据的空间结构信息,并进一步提高分类精度,提出了一种基于线性嵌入和张量流形的高光谱特征提取算法。不同于其他流形结构的表达方法,所提算法采用协同表示理论求解全局线性嵌入的权重矩阵,更有利于保持高维数据的全局信息,提高了流形结构表达的准确性。同时,建立了基于多特征描述的张量流形降维框架,得到的显式映射具有较强的可靠性和全局适应性。实验结果表明:与主成分分析、局部线性嵌入、拉普拉斯特征映射和线性保留投影等算法相比,所提算法表现出了更优越的分类性能。  相似文献   

12.
美国斯隆数字巡天望远镜已经发布了第9期数据。这些海量的天文光谱数据除了可以用来进行大样本的研究,如探寻银河系的结构和进行多波段证认外,还蕴藏着稀少和特殊的天体,其中就包括矮新星。矮新星是激变变星中所占比例最高的一个亚型,发现更多的矮新星样本对于研究密近双星的演化和参数有积极的意义。目前针对激变变星这类稀少天体的发现主要使用测光粗筛选结合后期观测证认的方法,不但准确率低,而且需要耗费较多的人工处理时间,无法满足在海量光谱数据中快速发现矮新星候选体的需要。本文提出一种适用于在海量光谱中自动、快速发现矮新星的方法。该方法针对SDSS的DR9数据,先使用支持向量机约束主分量分析进行降维,确定特征空间的维数,然后再使用训练后得到的最优分类器对海量光谱进行自动识别,寻找矮新星候选体。实验共发现了276个矮新星,其中6个是未被收录的新的源,表明了该方法的有效性,为在海量光谱中快速发现稀少和特殊天体提供了有效途径。实验中发现的新结果补充了现有的矮新星模板光谱库,可以构造更准确的特征空间。本方法也可用于在其他的巡天望远镜如郭守敬望远镜的海量光谱中进行特殊天体的自动搜索。  相似文献   

13.
聚类分析是数据挖掘中用以发现数据分布和隐含模式的一种重要算法,能简单有效地研究大样本、多参量和类别未知的光谱数据。以线指数作为光谱数据的特征值能够在尽可能多的保留光谱物理特征的同时,有效解决高维光谱数据聚类分析中运算复杂度较高的问题。本文提出了基于线指数特征的海量恒星光谱数据聚类分析的方法,提取恒星光谱中的Lick线指数作为海量巡天光谱数据的特征,使用k均值聚类算法完成对光谱数据的聚类,然后对聚类结果进行有效的分析。实验结果证明该方法能够快速有效地将具有相似物理特征的恒星光谱数据聚集到一起,该方法可以应用到巡天数据的研究中。  相似文献   

14.
一种基于主分量分析的恒星光谱快速分类法   总被引:11,自引:2,他引:9  
恒星光谱分类是天体光谱自动识别中的重要组成部分。本文主要介绍一种实用的基于主分量分析(PCA)法对恒星光谱进行快速自动的分类方法。该方法在恒星的主分量空间中对样本点进行投影 ,并利用最近邻分类器进行分类 ,获得与恒星MK分类标准的光谱型基本一致的结果。本文的主要工作有 :(1 )利用PCA方法构造恒星光谱的特征矩阵 ,建构恒星的主分量空间 ;(2 )对恒星光谱进行主分量投影 ,对投影点进行光谱型和光度级的分类器设计 ,利用最近邻法分类 ,最后得出恒星的分类树。该分类法速度快 ,分类准确率较高 ,对目前许多大型光谱巡天计划所获得的大量光谱数据的处理有着重要的意义。  相似文献   

15.
恒星光谱分类是研究恒星的基础性工作之一,常用的光谱分类是基于20世纪70年代Morgan和Keenan建立起来的并逐步完善的MK分类系统。然而基于MK规则的交互式决策分类系统对处理海量天文光谱数据存在着一定的困难。目前光谱巡天一般采用的自动化分类则是模版匹配方法而忽略对谱线特征的测量。怎样自动、客观地提取海量光谱中的分类特征并应用这些特征进行分类可以对天体的物理化学性质的统计分析至关重要。针对此问题,通过机器学习和计算光谱的谱线指数结合的方法,提取光谱特征,并通过大数据分析定量地确定对光谱特征谱线的分类判据(数值化),确定每一类光谱具有物理意义的特征谱线的强度分布。首先对LAMOST DR4恒星光谱测量其谱线指数作为输入,光谱的分类标记采用官方发布的分类结果。使用XGBoost算法进行自动分类及特征排序,从而获得已知或未知的对于分类决策最为敏感的谱线。首先,选取高信噪比(S/N>30)、被LAMOST标记为B,A,F和M的恒星光谱数据,总计约414万个。然后,对光谱数据计算谱线指数从而使其得到降维处理,过滤冗余信息。其次,将处理后的恒星光谱数据随机划分为训练集和测试集,通过适当调整算法参数,用训练集得到所需要的分类决策树模型,用测试集测试其稳定性和可用性,以防止出现过拟合,同时使用算法自带函数进行提取分类特征。最后,输出并整理实验中算法所得的决策树模型,并挑选其概率比较大的分支作为最终的决策树模型。通过实验,可以发现在固定参数下,XGBoost所得的模型有一定的自适应性,较少受数据集影响,总体准确率可达88.5%;同时其所输出的分类决策树与已知的特征较为吻合,而且可以获得基于大数据的、数值化的特征谱线对应分类的范围,为完善基于特征的分类提供定量的规则。  相似文献   

16.
基于Fisher判别分析的有监督特征提取和星系光谱分类   总被引:3,自引:2,他引:1  
随着天文观测技术的进步、数据获取能力的提高和大型光谱巡天计划的相继实施,光谱数据的自动处理研究越来越受到重视和关注。文章在分析了文献中光谱自动分类研究的特点和无监督特征提取方法所固有的一些不足的基础上指出了光谱有监督特征提取研究的必要性。并重点研究了Fisher判别分析(FDA)有监督特征提取方法在星系光谱自动分类中的应用。该方法: (1) 具有突出的维数约减能力; (2) 能有效地融合训练数据的类别信息,并按照分类能力提取特征。实验表明,将FDA方法用于某些星系细分类不仅明显地提高了分类器的速度,而且具有良好的分类性能。因此,对于较大的光谱识别系统更能体现出该方法的优越性。  相似文献   

17.
在近红外光谱数据相似性测度时,由于光谱数据高维、非线性、重叠等特点,会出现测度距离失效、数据信息处理困难等难题。针对传统相似性测度方法在高维空间出现的不适应性,提出了基于邻近集计算的光谱相似性测度方法。首先,采用邻域保持投影neighborhood preserving projections(NPP)算法对原始光谱数据进行降维处理,该降维方法可以很好的保留原始光谱数据非线性结构信息和数据点的邻域信息。然后,在光谱数据降维后的低维空间中,采用改进的邻近集计算方法,实现对近红外光谱数据的相似性测度。实验结果表明,基于邻近集计算的光谱相似性测度方法,有效的实现了光谱数据的相似性测度,在烟叶风格判定和品质分析方面有较好的应用前景,同时也为高维光谱数据相似性测度提供了一个良好的解决方法。  相似文献   

18.
魏峰  何明一  申志明  李旭 《光子学报》2014,43(6):630002
传统的高光谱数据特征选择方法分为监督和无监督模式,然而在高光谱数据实际处理中,大量无标记和少量有标记数据并存.此外,传统方法忽视了真实数据嵌入在高维空间中的流形结构.本文提出一种基于流形的半监督特征选择算法,定义一个合理的特征评判准则,考虑标记样本的先验信息以及高维数据局部和非局部结构的不变特性.通过对标记数据类间方差和类内方差的极大化和极小化,优化数据的判别结构;同时通过构建局部graph和非局部graph,挖掘高维数据的流形结构.然后,选择一组有效的特征子集,实现高维数据的特征选择.最后,通过对特征选择后的真实高光谱数据进行分类实验,结果显示本文方法可以很好地对高光谱数据实现降维并且保留数据的主要结构.  相似文献   

19.
恒星大气物理参量(有效温度、表面重力、化学丰度)是导致恒星光谱差异的主要因素。恒星大气物理参量的自动测量是LAMOST等大规模巡天望远镜所产生的海量天体光谱数据自动处理中一个重要研究内容。文章采用两种非线性核回归方法对低分辨率恒星光谱进行3个物理参量的自动估计:核最小二乘回归(KLSR),核PCA回归(KPCR)。实验表明:(1)KLSR与KPCR可以实现光谱到表面有效温度和表面重力的回归,但是KLSR对噪声敏感,KPCR鲁棒性好于前者;(2)对于温度参数估计,两种算法具有相近的估计效果;对于表面重力和化学丰度估计,KPCR优于KLSR和非参数回归方法;(3)KLSR与KPCR方法实现容易,模型的训练速度快,运算复杂度小,适用于恒星光谱物理参量的自动测量。  相似文献   

20.
恒星大气物理参数的自动测量是大型巡天计划中海量光谱数据自动处理中的一个重要内容。首先使用多尺度Harr小波对恒星光谱数据进行特征分解,然后选用相应的小波系数作为光谱的特征向量,最后采用非参数回归算法对光谱的物理参数进行估计。研究表明,只需对光谱进行四层小波分解, 并选择第四层小波系数作为光谱的特征向量,即可获得重力加速度和表面有效温度的较好估计。对于化学丰度的估计,选择第一层小波系数作为光谱特征向量可取得较好效果。选用文献相关研究中常用的恒星大气模拟模型合成光谱库ELODIE中光谱数据测试了该方法的有效性。结果表明,基于Harr小波分解的光谱特征提取方法对恒星表面温度、表面重力和化学丰度等物理参数的估计具有较高的精度和鲁棒性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号