首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到13条相似文献,搜索用时 140 毫秒
1.
聚类分析是数据挖掘中用以发现数据分布和隐含模式的一种重要算法,能简单有效地研究大样本、多参量和类别未知的光谱数据。以线指数作为光谱数据的特征值能够在尽可能多的保留光谱物理特征的同时,有效解决高维光谱数据聚类分析中运算复杂度较高的问题。本文提出了基于线指数特征的海量恒星光谱数据聚类分析的方法,提取恒星光谱中的Lick线指数作为海量巡天光谱数据的特征,使用k均值聚类算法完成对光谱数据的聚类,然后对聚类结果进行有效的分析。实验结果证明该方法能够快速有效地将具有相似物理特征的恒星光谱数据聚集到一起,该方法可以应用到巡天数据的研究中。  相似文献   

2.
特殊恒星是金属丰度异常的恒星,其中包含的信息对于研究宇宙起源、太阳系的演变以及生命的演化都有着重要的意义。因此,特殊恒星的搜寻是国内外巡天项目中的重要目标。恒星光谱中包含着恒星的化学成分、物理性质以及运动状态等丰富的信息,它是开展恒星研究的重要依据。恒星的识别、分类以及特殊恒星的发现主要依据的是恒星光谱数据。随着LAMOST和SDSS等国内外大规模数字巡天项目的深入展开,恒星光谱的数据量达到了前所未有的高度,如此大的数据量为特殊恒星的发现提供了强有力的支撑。因此如何利用这些数据快速准确地发现特殊、稀少甚至于未知类型的恒星光谱是天文学研究的重要问题。数据挖掘是结合模式识别、机器学习、统计分析及相关专家背景知识,从数据中提取出隐含的过去未知的有价值的潜在信息的技术,其在处理大数据方面有着天然的优势,越来越多的数据挖掘方法被应用到巡天数据处理及分析之中。目前针对特殊恒星搜寻的数据挖掘算法主要包含随机森林、聚类分析以及异常值检测等,但随着巡天深度的拓展,观测的目标越来越暗,进而观测光谱的信噪比也随之变低。低信噪比光谱中存在着大量的无用信息,直接利用相关算法对其进行分析处理得到的结果往往存在很大的偏差。因此,如何从大量低信噪比恒星光谱巡天数据中有效地搜寻出特殊的恒星光谱,是当前面临的一个重要问题。由于低信噪比恒星光谱本身的特点,对于从中搜寻特殊恒星光谱的工作开展较少。为了解决此问题,在仔细研究光谱数据处理方法的基础上,针对低信噪比巡天数据中特殊恒星光谱的搜寻,提出了一种以主成分分析(PCA)和基于密度峰值聚类为基础的方法。该方法首先选取O,B,A,F,G,K和M各种类型的高信噪比恒星光谱,进行波长统一和流量插值后,利用主成分分析得到特征光谱;然后利用方差贡献率最大的前几个特征光谱对低信噪比的恒星光谱进行重构得到高信噪比的光谱;最后利用重构之后的高信噪比光谱进行聚类,聚类分析中得到的离群数据即为所要搜寻的特殊恒星光谱。在聚类时,考虑到恒星光谱数据本身的特点,采用了一种基于密度峰值的聚类方法来进行聚类及离群点的挖掘。实验表明,该方法能够在低信噪比的恒星光谱巡天数据中准确地搜寻出数量相对较少的特殊恒星。同时,也可应用于诸如LAMOST、SDSS等各种银河系巡天的光谱数据分析与挖掘中。  相似文献   

3.
探索海量的M型恒星中具有磁活动、巨星等较特殊、稀有的天体,对于后续观测、银河系结构、演化等科学研究具有重要的意义,针对M型恒星光谱特征线出现在子空间中的局部偏离,设计并实现了晚型恒星离群数据挖掘系统。首先采用稀疏因子和稀疏度系数度量样本在属性空间上的分布特征,并在此基础上对M型恒星光谱特征线进行离散化、降维等预处理,获得光谱子空间;然后采用微粒群算法搜索离群子空间,并证认子空间内光谱是否离群;此外,选择SDSS M型光谱特征线指数集为样本,实验分析了稀疏因子和稀疏度系数的设置对离群结果的影响,并将离群挖掘结果与SDSS提供光谱型等参数对照,表明利用该系统实现晚型恒星光谱特征线局部离群数据挖掘是可行并有价值的。  相似文献   

4.
面向LAMOST的天体光谱离群数据挖掘系统研究   总被引:4,自引:3,他引:1  
在宇宙中寻求未知天体是人类探索宇宙奥妙所追求的目标之一,离群数据挖掘是发现未知天体光谱数据的一种有效途径。文章首先以VC++和Oracle9i为开发工具,设计与实现了面向LAMOST的恒星光谱离群数据挖掘系统,并给出了其软件体系结构和模块功能。其次,对基于中值滤波器的恒星光谱数据预处理、基于距离的恒星光谱数据聚类、基于距离支持度的恒星光谱数据离群数据挖掘、基于主分量分析法PCA的恒星光谱数据离群数据的三维可视化等主要关键技术进行了详细描述。最后,基于SDSS恒星光谱数据的运行结果表明,利用该系统寻找天体光谱离群数据是可行的,从而为寻找未知的、特殊的天体光谱数据提供了一种新途径。  相似文献   

5.
距离度量是光谱巡天数据处理中的一个重要研究内容,其定义了一种不同光谱间的距离计算方法,以此为基础可进行光谱的分类、聚类、参数测量及离群数据挖掘等工作。距离度量方法的好坏在一定程度上影响了分类、聚类、参数测量及离群数据挖掘的效果及性能,同时随着大规模恒星光谱巡天项目的开展,如何针对恒星光谱定义更为有效的距离度量方法成为其数据处理中一个非常关键的问题。基于此问题,在充分考虑到恒星光谱的特点及其数据特征的基础上,提出一种新的恒星光谱间的距离度量方法:残差分布距离。该距离度量有别于传统计算恒星光谱间距离计算方法,利用该方法计算恒星光谱间的距离时,首先将两条光谱归一化到同一尺度下,然后计算对应波长处的残差,以残差谱分布的标准差作为距离度量。该距离度量方法可用于恒星分类、聚类以及恒星大气物理参数测量等应用中。本文以恒星光谱细分类为例来比较检验该距离度量方法,结果表明该方法定义的距离在分类时能更为有效的刻画不同类别光谱间的差距,可以很好的用于相关应用中。同时还研究了信噪比对该距离度量方法的影响:残差分布距离一定程度上受光谱信噪比影响,信噪比越小,对距离的影响越大;在信噪比大于10之后,残差分布距离对分类的影响很小。  相似文献   

6.
天体光谱中蕴含着非常丰富的天体物理信息,通过对光谱的分析,可以得到天体的物理信息、化学成分以及天体的大气参数等。随着LAMOST和SDSS等大规模巡天望远镜的实施,将会产生海量的光谱数据,尤其是LAMOST正式运行后,每个观测夜产生大约2~4万条光谱数据。如此海量的光谱数据对光谱的快速有效的处理提出了更高的要求。恒星光谱的自动分类是光谱处理的一项基本内容,该研究主要工作就是研究海量恒星光谱的自动分类技术。Lick线指数是在天体光谱上定义的一组用以描述光谱中谱线强度的标准指数,代表光谱的物理特性,以每个线指数最突出的吸收线命名,是一个相对较宽的光谱特征。研究了基于Lick线指数的贝叶斯光谱分类方法,对F,G,K三类恒星进行分类。首先,计算各类光谱的Lick线指数作为特征向量,然后利用贝叶斯分类算法对三类恒星进行分类。针对海量光谱的情况,基于Hadoop平台实现了Lick线指数的计算,以及利用贝叶斯决策进行光谱分类的方法。利用Hadoop HDFS高吞吐率和高容错性的特点,结合Hadoop MapReduce编程模型的并行优势,提高了对大规模光谱数据的分析和处理效率。该研究的创新点为:(1) 以Lick线指数作为特征,基于贝叶斯算法实现恒星光谱分类;(2) 基于Hadoop MapReduce分布式计算框架实现Lick线指数的并行计算以及贝叶斯分类过程的并行化。  相似文献   

7.
大规模光谱巡天项目如LAMOST等产生了海量极具研究价值的观测数据,如何对此数量级的数据进行有效的分析是当前的一个研究热点。聚类算法是一类无监督的机器学习算法,可以在不依赖于领域知识的情况下对数据进行处理,发现其中的规律与结构。恒星光谱聚类是天文数据处理中一项非常重要的工作,主要对海量光谱巡天数据按照其物理及化学性质分类。针对LAMOST巡天中的早M型矮恒星的光谱数据,使用多种聚类算法如K-Means,Bisecting K-Means和OPTICS算法做了聚类分析,研究不同聚类算法在早M型恒星数据的表现。聚类算法在一定程度依赖于其使用的距离度量算法,同时研究了欧氏距离、曼哈顿距离、残差分布距离和上述三种聚类算法搭配下的表现。实验结果表明:(1)聚类算法可以很好地辅助分析早M型矮恒星的光谱数据,聚类产生的簇心数据和MK分类吻合得非常好。(2)三种不同聚类算法表现不尽相同,Bisecting K-Means在恒星光谱细分类方面更有优势。(3) 在聚类的同时也会产生一些数量较少的簇,从这些簇中可以发现一些稀有天体候选体,相对而言OPTICS适合用来寻找稀有天体候选体。  相似文献   

8.
高维数据挖掘由于特征空间占用开销较大,挖掘的复杂度较高,挖掘精度不高,为了提高对高维数据挖掘的准确性能,提出一种基于相空间重构和K-L变换特征压缩的高维数据挖掘数学建模方法。采用集成学习技术,对高维数据信息流进行相空间重构处理,考虑类间的数据不平衡性,求得高维数据的关联维特征参量,根据数据的链距离进行稀疏性融合,计算高维数据流模型的最大Lyapunove指数谱,根据谱分析方法实现数据聚类,对聚类后的数据采用K-L特征压缩方法进行降维处理,降低数据挖掘的内存及计算开销。仿真结果表明,采用该方法进行高维数据挖掘,数据挖掘的准确概率较高,占用内存消耗较少,计算开销较小。  相似文献   

9.
恒星大气物理参量(有效温度、表面重力、化学丰度)是导致恒星光谱差异的主要因素。恒星大气物理参量的自动测量是LAMOST等大规模巡天望远镜所产生的海量天体光谱数据自动处理中一个重要研究内容。文章采用两种非线性核回归方法对低分辨率恒星光谱进行3个物理参量的自动估计:核最小二乘回归(KLSR),核PCA回归(KPCR)。实验表明:(1)KLSR与KPCR可以实现光谱到表面有效温度和表面重力的回归,但是KLSR对噪声敏感,KPCR鲁棒性好于前者;(2)对于温度参数估计,两种算法具有相近的估计效果;对于表面重力和化学丰度估计,KPCR优于KLSR和非参数回归方法;(3)KLSR与KPCR方法实现容易,模型的训练速度快,运算复杂度小,适用于恒星光谱物理参量的自动测量。  相似文献   

10.
恒星光谱分类是恒星光谱分析的重要工作之一。我国大型巡天项目LAMOST能够获得海量的恒星光谱数据,为了对海量恒星光谱数据进行高效分类,特别是对恒星光谱子型数据进行分类,需要研究快速有效的恒星光谱自动分类算法。提出一种基于Transformer特征提取的混合深度学习算法Bert+svm(简记为Besvm)实现A型恒星光谱子型的自动分类。该算法将A型恒星光谱26个线指数作为输入特征,应用Bert模型对26个线指数进行更深层次的学习,通过学习26个线指数的内在关联,进而提取到更有利于A型恒星光谱子型分类的特征。提取好的新特征被输入到分类器算法支持向量机(简记为SVM)中,进而对A型恒星光谱的三个子型A1、 A2和A3进行自动分类。此前,SVM算法在恒星光谱分类任务中已经有过应用,一些衍生的SVM算法在恒星光谱分类任务中也有较高的分类正确率。相比从前应用到恒星光谱分类任务的SVM算法,我们的混合深度学习算法受数据的信噪比影响较小,使用低信噪比数据也能有较高的分类正确率,并且所用数据量较少。通过五组实验验证了该算法的有效性和优越性:实验1用来对比选择优秀的核函数,通过光谱数据的匹配实验,最终选择...  相似文献   

11.
LAMOST一期巡天成功获取河外星系光谱超过150 000条,大样本光谱数据为探索奇异、稀有的天体从而完善现有的天体演化理论提供了必要的数据条件;而先进的信息技术为从海量的数据中挖掘这些珍稀样本提供了有效途径。针对采用基于DoPS的数据挖掘方法,从LAMOST DR5星系光谱数据获得的离群数据挖掘结果中,呈现出疑似P-Cygni轮廓特征的光谱J152238.11+333136.1进行了深入讨论。首先针对该光谱的基本信息、疑似P-Cygni轮廓特征以及相应的离群数据挖掘方法进行了简要表述,光谱在Hβ和[OⅢ]λ4860处呈现P-Cygni轮廓,在NeⅢλ3869和HeⅠλ5874处呈现反P-Cygni轮廓;其次,对该特征的真实性及其生成机制从以下4个角度展开讨论。(1)交叉同源观测。Sloan巡天2004年(相差11年)的同源观测,其光谱上并未呈现对应的特征,据推测可能是正在进行的演化活动或者光纤定位误差所致;(2)通过分析光谱质量、减天光残差等方法,分析P-Cygni特征是否为观测或数据处理所致。NeⅢλ3869和HeⅠλ5874处呈现反P-Cygni轮廓可信度较低;同时,通过比较目标光谱与超级天光,以及相邻光纤观测到的光谱在对应波长处的光谱特征,说明存在P-Cygni轮廓为减天光过程导致的可能性;(3)光谱子型差异。IRAS和WISE等近红外同源观测,显示其为Seyfert 2型星系,光学波段发射线强比[NⅡ]/Hα,[OⅢ]/Hβ显示其为HⅡ区,结合光学、红外测光图像特征,推测目标可能是两个星系进行并合活动;(4)从导致P-Cygni轮廓的物理机制的角度,分析了由星系并合触发外流、由恒星形成(爆发)电离气体触发的外流以及由Wolf-Rayet特征星系的超星风等原因引起的可能性。  相似文献   

12.
针对LAMOST DR5 pipeline分类为Unknown的光谱数据对其进行了特征提取和聚类分析。主要工作如下:(1) 基于影响空间及数据场的特征提取。首先基于影响空间从低信噪比光谱中提取出大量小集团;然后计算各小集团内部的场并根据场对光谱排序,依次访问光谱序列及其小集团内的成员来获得特征谱;(2) 对上述特征谱进行K-means聚类,并统计了每一类目标所在天区、观测视宁度、各波段信噪比、亮度、光谱仪/光纤的分布情况。(3) 低质量光谱聚类结果的理论分析。通过聚类所有低质量光谱被分为了5大簇:A 光谱信噪比较低或与传统分类模板差异较大,但通过特征分析可确定其类别(占比2.7%);B 光谱蓝端或红端出现疑似特征线或分子带,但与线表无法匹配(占比23.6%);C 光谱蓝端信噪比极低,且该波长区域噪声值较强,其他波长区域的连续谱和线的特征较弱(占比48.0%);D 红蓝两端拼接问题导致5 700~5 900 Å局部光谱突起明显,其他波长区域的连续谱和线的特征较弱(占比24.2%);E 存在大量缺省值导致无法确定其类别(占比1.5%)。实验结果表明,该方法不仅能够有效提取低信噪比光谱的特征谱,同时能够通过特征谱的聚类分析揭示低质量光谱的成因,从而为制定光谱观测计划提供参考,为低信噪比光谱分析及处理提供方法借鉴。  相似文献   

13.
随着天文大数据不断积累,我国大天区多目标光纤光谱望远镜LAMOST已完成6年的大规模巡天观测,获得DR5数据集已达到900多万条光谱,其中含有观测比例较低的早型恒星光谱,具备重要的研究价值。利用准确的恒星分类模板库可提升恒星的分类精度与可靠性,由于LAMOST第一年的巡天光谱中并没有完整覆盖B型恒星包含的所有子类型,造成后续观测数据分类的子类型范围受限。依据LAMOST已发布DR5数据中B型恒星光谱为研究对象,选取ELODIE发布的B型恒星实测光谱模板库来检测LAMOST在用的分类光谱。首先完成ELODIE发布37条B型光谱模板的相关性分析,去掉相关性弱的三条光谱后,筛选出ELODIE 34条B型恒星实测模板作为中心,通过计算LAMOST DR5发布的绝大多数被标记为B6型(7 662条)和B9型(3 969条)实测光谱的马氏距离,经有监督聚类LAMOST早型恒星光谱数据,标记13个子类型在涵盖B2-B9子类的34条ELODIE光谱模板中的分布。经线性分析判别每条谱线子类型的类内距离,确保波长覆盖范围和分辨率与LAMOST数据完全一致,去掉距离数值偏差较大的数据,计算相应子类的平均谱线,得到LAMOST源于DR5观测数据早型B型恒星的13条子类型光谱分类模板,为后期完善模板提供较好的参考性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号