首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
大规模光谱巡天将产生海量的光谱数据,为搜寻一些奇异甚至于未知类型的光谱提供了机会,对这些特殊天体的研究有助于揭示宇宙的演变规律和生命起源,巡天数据的离群数据挖掘有助于这些特殊的光谱的发现。利用线指数对光谱数据进行降维能够在尽可能多的保留光谱物理特征的同时,有效解决高维光谱数据聚类分析中运算复杂度较高的问题。提出了基于线指数特征的海量恒星光谱离群数据挖掘及分析的方法,以恒星光谱的Lick线指数作为光谱数据的特征,利用聚类搜寻离群数据的方法在海量光谱巡天数据搜寻离群数据,以此为基础并给出线指数特征空间内离群光谱数据的分析方法。实验结果证明:(1)以线指数作为光谱的特征值能快速的完成对高维光谱数据的离群数据挖掘,可以解决高维光谱数据运算复杂度高的问题;(2)该方法是在聚类结果上进行的离群数据挖掘,能够有效的挖掘出数量较少的发射线恒星、晚M型恒星、极贫金属星、缺失数据光谱等数据;(3)线指数特征空间的离群数据挖掘可以得到线指数特征空间内特殊恒星的发现规则。本文所提出的基于线指数特征的离群数据挖掘及分析方法可以应用到巡天数据的相关研究中。  相似文献   

2.
恒星光谱分类是研究恒星的基础性工作之一,常用的光谱分类是基于20世纪70年代Morgan和Keenan建立起来的并逐步完善的MK分类系统。然而基于MK规则的交互式决策分类系统对处理海量天文光谱数据存在着一定的困难。目前光谱巡天一般采用的自动化分类则是模版匹配方法而忽略对谱线特征的测量。怎样自动、客观地提取海量光谱中的分类特征并应用这些特征进行分类可以对天体的物理化学性质的统计分析至关重要。针对此问题,通过机器学习和计算光谱的谱线指数结合的方法,提取光谱特征,并通过大数据分析定量地确定对光谱特征谱线的分类判据(数值化),确定每一类光谱具有物理意义的特征谱线的强度分布。首先对LAMOST DR4恒星光谱测量其谱线指数作为输入,光谱的分类标记采用官方发布的分类结果。使用XGBoost算法进行自动分类及特征排序,从而获得已知或未知的对于分类决策最为敏感的谱线。首先,选取高信噪比(S/N>30)、被LAMOST标记为B,A,F和M的恒星光谱数据,总计约414万个。然后,对光谱数据计算谱线指数从而使其得到降维处理,过滤冗余信息。其次,将处理后的恒星光谱数据随机划分为训练集和测试集,通过适当调整算法参数,用训练集得到所需要的分类决策树模型,用测试集测试其稳定性和可用性,以防止出现过拟合,同时使用算法自带函数进行提取分类特征。最后,输出并整理实验中算法所得的决策树模型,并挑选其概率比较大的分支作为最终的决策树模型。通过实验,可以发现在固定参数下,XGBoost所得的模型有一定的自适应性,较少受数据集影响,总体准确率可达88.5%;同时其所输出的分类决策树与已知的特征较为吻合,而且可以获得基于大数据的、数值化的特征谱线对应分类的范围,为完善基于特征的分类提供定量的规则。  相似文献   

3.
恒星大气物理参数(有效温度、表面重力、化学丰度)的自动测量是天体光谱数据自动处理中的一项重要内容。由于光谱数据的高维性的特点,处理运算量非常大,对于光谱的实时分析及处理会造成延误。文章提出了一种基于Lick线指数,利用核偏最小二乘回归(KPLSR) 对恒星大气物理参数进行测量的方法。可以有效地减少运算量并可达到理想的准确率。首先计算Kurucz合成光谱的Lick线指数,利用核偏最小二乘回归方法建立Lick线指数与大气物理参数之间的核回归模型,并利用DR8实测光谱数据对得到的模型进行测试,将测试的结果与SEGUE SSPP提供的大气物理参数进行了对比,取得了比较好的效果。此外,为了检验噪声对参数测量的影响,本文还对Kurucz光谱分别加了信噪比为10, 20, 30, 40, 50, 70, 90, 120的高斯白噪声,对得到的不同信噪比的Kurucz数据进行了测试,实验结果表明,核回归模型对噪声比较敏感,光谱数据的信噪比越高,其大气物理参数的预测精度越高。提出的基于线指数建立核偏最小二乘回归模型的方法运算量小,训练速度快,适合用于恒星大气物理参数的测量。  相似文献   

4.
恒星光谱分类是恒星光谱分析的重要工作之一。我国大型巡天项目LAMOST能够获得海量的恒星光谱数据,为了对海量恒星光谱数据进行高效分类,特别是对恒星光谱子型数据进行分类,需要研究快速有效的恒星光谱自动分类算法。提出一种基于Transformer特征提取的混合深度学习算法Bert+svm(简记为Besvm)实现A型恒星光谱子型的自动分类。该算法将A型恒星光谱26个线指数作为输入特征,应用Bert模型对26个线指数进行更深层次的学习,通过学习26个线指数的内在关联,进而提取到更有利于A型恒星光谱子型分类的特征。提取好的新特征被输入到分类器算法支持向量机(简记为SVM)中,进而对A型恒星光谱的三个子型A1、 A2和A3进行自动分类。此前,SVM算法在恒星光谱分类任务中已经有过应用,一些衍生的SVM算法在恒星光谱分类任务中也有较高的分类正确率。相比从前应用到恒星光谱分类任务的SVM算法,我们的混合深度学习算法受数据的信噪比影响较小,使用低信噪比数据也能有较高的分类正确率,并且所用数据量较少。通过五组实验验证了该算法的有效性和优越性:实验1用来对比选择优秀的核函数,通过光谱数据的匹配实验,最终选择...  相似文献   

5.
恒星大气物理参量(有效温度、表面重力、化学丰度)是导致恒星光谱差异的主要因素。恒星大气物理参量的自动测量是LAMOST等大规模巡天望远镜所产生的海量天体光谱数据自动处理中一个重要研究内容。文章采用两种非线性核回归方法对低分辨率恒星光谱进行3个物理参量的自动估计:核最小二乘回归(KLSR),核PCA回归(KPCR)。实验表明:(1)KLSR与KPCR可以实现光谱到表面有效温度和表面重力的回归,但是KLSR对噪声敏感,KPCR鲁棒性好于前者;(2)对于温度参数估计,两种算法具有相近的估计效果;对于表面重力和化学丰度估计,KPCR优于KLSR和非参数回归方法;(3)KLSR与KPCR方法实现容易,模型的训练速度快,运算复杂度小,适用于恒星光谱物理参量的自动测量。  相似文献   

6.
聚类分析是数据挖掘中用以发现数据分布和隐含模式的一种重要算法,能简单有效地研究大样本、多参量和类别未知的光谱数据。以线指数作为光谱数据的特征值能够在尽可能多的保留光谱物理特征的同时,有效解决高维光谱数据聚类分析中运算复杂度较高的问题。本文提出了基于线指数特征的海量恒星光谱数据聚类分析的方法,提取恒星光谱中的Lick线指数作为海量巡天光谱数据的特征,使用k均值聚类算法完成对光谱数据的聚类,然后对聚类结果进行有效的分析。实验结果证明该方法能够快速有效地将具有相似物理特征的恒星光谱数据聚集到一起,该方法可以应用到巡天数据的研究中。  相似文献   

7.
天体光谱包含着许多重要的关于天体的物理和化学信息,如天体表面的有效温度、重力加速度以及化学丰度等,天体光谱的处理和分析对天文研究具有重要的科学意义。一些大型巡天计划的实施(如SDSS,LAMOST等)使我们获得了海量的天文光谱数据,因此天文光谱数据的自动分类成为重要的科学研究课题,然而面对如此海量的光谱数据,一些传统的光谱自动分类方法已经不适用,迫切需要寻找高效率的光谱自动分类技术。研究了基于局部均值的K-近质心近邻(local mean-based K-nearest centroid neighbor,LMKNCN)算法在恒星(Star)、星系(Galaxy)和类星体(Quasar,QSO)的光谱分类中的应用。LMKNCN算法的基本思想是根据近质心近邻原则,从每一类训练样本集中为待测样本点选取k个近质心近邻点,然后根据每一类中所选取的k个近质心近邻点的均值点到待测样本点x的距离来判别x的所属类别。针对美国SDSS-DR8的天体光谱数据,对比了K-近邻、K-近质心近邻、LMKNCN三种算法在恒星、星系和类星体的光谱分类中所表现的性能,结果表明三种方法中,LMKNCN算法对这三种光谱的识别率高于其他两种算法或者与其相当,而且其平均分类正确率高于另外两种算法,特别是在类星体的识别率上表现的更好。表明了该算法对天文光谱大数据的快速处理和有效利用具有重要的意义。  相似文献   

8.
随着LAMOST巡天的逐步实施,天体光谱数据量极大,对观测数据进行自动分类及分析具有重要的意义。采用常规方法获取的分类规则集中,往往存在大量冗余规则,影响了分类效率和质量。本文给出了一种基于谓词逻辑的分类规则后处理方法,通过利用谓词描述光谱分类规则,并对分类规则集进行谓词演算,消除冗余规则。最后,采用LAMOST观测的恒星光谱数据,实验验证该方法在保证分类准确率不降低的前提下,可大幅提高自动分类效率。  相似文献   

9.
大规模光谱巡天项目如LAMOST等产生了海量极具研究价值的观测数据,如何对此数量级的数据进行有效的分析是当前的一个研究热点。聚类算法是一类无监督的机器学习算法,可以在不依赖于领域知识的情况下对数据进行处理,发现其中的规律与结构。恒星光谱聚类是天文数据处理中一项非常重要的工作,主要对海量光谱巡天数据按照其物理及化学性质分类。针对LAMOST巡天中的早M型矮恒星的光谱数据,使用多种聚类算法如K-Means,Bisecting K-Means和OPTICS算法做了聚类分析,研究不同聚类算法在早M型恒星数据的表现。聚类算法在一定程度依赖于其使用的距离度量算法,同时研究了欧氏距离、曼哈顿距离、残差分布距离和上述三种聚类算法搭配下的表现。实验结果表明:(1)聚类算法可以很好地辅助分析早M型矮恒星的光谱数据,聚类产生的簇心数据和MK分类吻合得非常好。(2)三种不同聚类算法表现不尽相同,Bisecting K-Means在恒星光谱细分类方面更有优势。(3) 在聚类的同时也会产生一些数量较少的簇,从这些簇中可以发现一些稀有天体候选体,相对而言OPTICS适合用来寻找稀有天体候选体。  相似文献   

10.
随着天文大数据时代计算科学的蓬勃发展,我国具备自主知识产权的国际天文界口径最大、光谱获取率最高的大视场望远镜LAMOST,已率先在国际上开拓并实现了同时观测几千个天体光谱的大规模巡天工作。自2011年巡天至2015年6月所获得的DR3光谱数据集目前已获取世界上最大的恒星参数星表。针对LAMOST第三期发布FGK恒星光谱的流量定标等相关数据,利用Kurucz模板光谱对应的参数空间划分网格,基于开源高效的数据处理R语言程序软件平台,设计了有监督的聚类中心,便于验证其理论参数网格的差异。处理LAMOST实测光谱经归一化后,选择距离量直接描述属性,采用欧氏距离分析判别光谱之间的相似度,选取相应的属性向量构造函数判断观测光谱和理论光谱差别的量级。实验表明:比对LAMOST实测FGK型恒星光谱数据与Kurucz理论模板库数据一致性以及参数测量的准确性,结果显示相同参数的光谱间特征谱线具有较好的一致性,从而得出LAMOST光谱测量物理参数质量较高,具备极好的可靠性,为后续恒星大气模型的改进提供相应的论证依据。  相似文献   

11.
天体光谱处理中的一项基本任务是对大量的恒星光谱进行自动分类。到目前为止,恒星光谱的分类工作多是基于一维光谱数据。该研究打破传统的天体光谱数据处理流程,提出了基于二维恒星光谱分类的方法。在LAMOST(the large sky area multi-object fiber spectroscopic telescope)的数据处理流程中,所有的一维光谱都是由二维光谱抽谱、合并得来。二维光谱是由光谱仪产生的图像,包括蓝端图像和红端图像。基于LAMOST二维光谱数据,提出了特征融合卷积神经网络(FFCNN)分类模型,用于二维恒星光谱的分类。该模型是一个有监督的算法,通过两个CNN模型分别提取蓝端图像和红端图像的特征,然后将二者进行融合得到新的特征,再利用CNN对新特征进行分类。所使用的数据全部来源于LAMOST,我们在LMOST DR7中随机选择了一批源,然后获得了它们的二维光谱。一共有14 840根F,G和K型恒星的二维光谱用于FFCNN模型的训练,其中包括7 420根蓝端光谱和7 420根红端光谱。由于三类恒星光谱的数量并不均衡,在训练的过程中分别为每类恒星光谱设置了不同权重,防止模型出现分类失衡现象。同时,为了加快模型收敛,对二维光谱数据采用Z-score归一化处理。此外,为了充分利用所有样本,提高模型的可靠度,采用五折交叉验证的方法验证模型。3 710根二维光谱用作测试集,使用准确率、精确率、召回率和F1-score来对FFCNN模型的性能进行评价。实验结果显示,F,G和K型恒星的精确率分别达到87.6%,79.2%和88.5%,而且它们超过了一维光谱分类的结果。实验结果证明基于FFCNN的二维恒星光谱分类是一种有效的方法,它也为恒星光谱的处理提供了新的思路和方法。  相似文献   

12.
恒星光谱分类是天文数据处理中一项非常重要的工作,主要对海量光谱巡天数据按照其物理性质进行分类。利用残差分布度量的方法对LAMOST巡天中观测到的 M矮星光谱进行细分类研究。残差分布度量是一种光谱间的距离度量方法,计算光谱之间的距离时,先将两条光谱进行归一化处理,之后计算对应波长采样点处的残差,最终以残差分布的标准差作为光谱之间的距离。使用LAMOST DR2中释放的M矮星光谱进行细分类实验。实验结果表明,残差分布度量方法能比较准确地对M矮星光谱数据进行细分类。还研究了信噪比、离群点以及残差标准化系数等因素对分类结果的影响。  相似文献   

13.
通过人工神经网络的方法基于Lick线指数,来进行大气物理参数的测量,对Kurucz的合成光谱进行预处理以适应最后LAMOST光谱数据的要求,以Lick线指数与对应的大气物理参数为输入,用人工神经网络进行训练,得到训练模型通过DR8光谱数据进行测试,通过调整人工神经网络的相关参数来使实验效果达到最佳。结果证明,通过线指数人工神经网络的方法来进行大气物理参数的测量是可行的。  相似文献   

14.
随着天文大数据不断积累,我国大天区多目标光纤光谱望远镜LAMOST已完成6年的大规模巡天观测,获得DR5数据集已达到900多万条光谱,其中含有观测比例较低的早型恒星光谱,具备重要的研究价值。利用准确的恒星分类模板库可提升恒星的分类精度与可靠性,由于LAMOST第一年的巡天光谱中并没有完整覆盖B型恒星包含的所有子类型,造成后续观测数据分类的子类型范围受限。依据LAMOST已发布DR5数据中B型恒星光谱为研究对象,选取ELODIE发布的B型恒星实测光谱模板库来检测LAMOST在用的分类光谱。首先完成ELODIE发布37条B型光谱模板的相关性分析,去掉相关性弱的三条光谱后,筛选出ELODIE 34条B型恒星实测模板作为中心,通过计算LAMOST DR5发布的绝大多数被标记为B6型(7 662条)和B9型(3 969条)实测光谱的马氏距离,经有监督聚类LAMOST早型恒星光谱数据,标记13个子类型在涵盖B2-B9子类的34条ELODIE光谱模板中的分布。经线性分析判别每条谱线子类型的类内距离,确保波长覆盖范围和分辨率与LAMOST数据完全一致,去掉距离数值偏差较大的数据,计算相应子类的平均谱线,得到LAMOST源于DR5观测数据早型B型恒星的13条子类型光谱分类模板,为后期完善模板提供较好的参考性。  相似文献   

15.
天文光谱线指数数据能够较好地保留着恒星的物理特征信息,为此借助线指数特征数据构建多参数模型,有利于更好地回归分析数据的共变关系及谱线的内在规律。世界上光谱获取率最高的施密特天文望远镜LAMOST发布的观测光谱都已经过标记,利用天文可视化工具分析这些标记的恒星光谱线指数会产生预测因子自相关,多元线性回归时因变量存在共线性,导致方差较大、得到最小二乘回归系数不稳定,虽不影响使用回归的有效性,但较难从回归方程中得到独立预测因子的评估系数。利用LAMOST巡天光谱数据中A型恒星Lick线指数为数据源,选取有效温度Teff为7 000~8 500 K,取信噪比大于50的光谱特征值实现回归分析恒星参数Teff值,经箱线图呈现DR5星表中,A型光谱86 097条具备Teff值大样本光谱数据的整体分布,统计分析26种线指数的特征值后,选取分布相似且带宽为12 Å的kp12,halpha12和hgamma12字段,减少解释线指数变量的数目,优化冗余变量方差膨胀因子(VIF)系数。实验选取两两变量间观测数据集,局部拟合回归散点、同样的数据源使用散点图的总体轮廓生成高密度散点图,利用色差透明性突出显示数据密集区域。结果表明多元线性回归和岭回归算法都能从低分辨率光谱中确定A型恒星的有效温度,但经过共线性数据分析有偏估计实验,使用岭回归分析寻找最佳模型,能更准确地确定恒星有效温度,进而得到预测A型恒星有效温度及谱线回归特性。  相似文献   

16.
偏最小二乘(PLS)算法是常用的光谱建模算法,然而对于海量光谱处理情形,在单台计算机上建模及优化时间开销很大。基于MapReduce编程模式,提出了并行MapReduce PLS回归算法,包括并行数据标准化和并行主成分提取两个过程。在多台普通计算机上搭建Hadoop云计算集群平台,以近红外光谱处理为例,开展了算法验证实验。实验结果表明,基于MapReduce编程模式的并行PLS算法对海量近红外光谱数据集进行回归建模时,能有效提高建模速度,随计算机台数的增多可得到接近线性的加速比,并具有良好的扩展性。  相似文献   

17.
基于谱线特征匹配的恒星光谱自动识别方法   总被引:1,自引:0,他引:1  
我国正在实施的大型巡天项目(LAMOST项目),急需恒星光谱的自动识别系统。文章给出了一种基于谱线特征匹配的恒星光谱自动识别方法。该方法由以下主要步骤组成:(1) 利用小波变换的方法对观测光谱进行谱线特征提取;(2) 将提取出的特征和恒星谱线的特征模板进行相关匹配;(3) 根据相关匹配结果进行恒星光谱识别。通过对Sloan Digital Sky Survey (SDSS),Data Release Four (DR4)中的大量真实光谱数据实验表明,该方法具有对噪声鲁棒等特点,正确识别率高达96.7%。该方法可对相对定标的巡天光谱进行自动识别,符合LAMOST数据的要求,可为天文学家进行恒星和银河系的结构等研究提供帮助。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号