首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 265 毫秒
1.
大规模光谱巡天将产生海量的光谱数据,为搜寻一些奇异甚至于未知类型的光谱提供了机会,对这些特殊天体的研究有助于揭示宇宙的演变规律和生命起源,巡天数据的离群数据挖掘有助于这些特殊的光谱的发现。利用线指数对光谱数据进行降维能够在尽可能多的保留光谱物理特征的同时,有效解决高维光谱数据聚类分析中运算复杂度较高的问题。提出了基于线指数特征的海量恒星光谱离群数据挖掘及分析的方法,以恒星光谱的Lick线指数作为光谱数据的特征,利用聚类搜寻离群数据的方法在海量光谱巡天数据搜寻离群数据,以此为基础并给出线指数特征空间内离群光谱数据的分析方法。实验结果证明:(1)以线指数作为光谱的特征值能快速的完成对高维光谱数据的离群数据挖掘,可以解决高维光谱数据运算复杂度高的问题;(2)该方法是在聚类结果上进行的离群数据挖掘,能够有效的挖掘出数量较少的发射线恒星、晚M型恒星、极贫金属星、缺失数据光谱等数据;(3)线指数特征空间的离群数据挖掘可以得到线指数特征空间内特殊恒星的发现规则。本文所提出的基于线指数特征的离群数据挖掘及分析方法可以应用到巡天数据的相关研究中。  相似文献   

2.
面向LAMOST的天体光谱离群数据挖掘系统研究   总被引:4,自引:3,他引:1  
在宇宙中寻求未知天体是人类探索宇宙奥妙所追求的目标之一,离群数据挖掘是发现未知天体光谱数据的一种有效途径。文章首先以VC++和Oracle9i为开发工具,设计与实现了面向LAMOST的恒星光谱离群数据挖掘系统,并给出了其软件体系结构和模块功能。其次,对基于中值滤波器的恒星光谱数据预处理、基于距离的恒星光谱数据聚类、基于距离支持度的恒星光谱数据离群数据挖掘、基于主分量分析法PCA的恒星光谱数据离群数据的三维可视化等主要关键技术进行了详细描述。最后,基于SDSS恒星光谱数据的运行结果表明,利用该系统寻找天体光谱离群数据是可行的,从而为寻找未知的、特殊的天体光谱数据提供了一种新途径。  相似文献   

3.
寻找特殊的、未知的天体是人类探索宇宙奥妙所追求的目标之一,天体光谱数据挖掘是实现该目标的一种有效方法。约束概念格是一种新的概念格结构,具有构造效率高、提取知识针对性和实用性强等特点。针对天体光谱数据在特征子空间中的局部偏离,采用VC++ 6.0和Oracle 9i作为开发工具,设计与实现了基于约束概念格的天体光谱局部离群数据挖掘系统,并对软件模块功能和体系结构,以及天体光谱数据预处理、约束概念格构造方法、基于链表结构的概念格构造、局部离群数据挖掘方法等关键技术进行了详细描述。运行结果表明,该系统实现天体光谱数据局部离群数据挖掘是可行的、有价值的,从而为寻找未知的、特殊的天体提供了一种新途径。  相似文献   

4.
我国正在实施的大型巡天项目(LAMOST项目),急需恒星光谱自动识别与分类系统并给出了一种基于光谱特征的恒星自动识别方法。该方法由以下主要步骤组成: (1)利用谱线小波特征进行恒星谱线整体估计和恒星Balmer线的检测;(2)利用吸收带小波特征进行吸收带位置和M型星特征频率检测;(3)根据以上检测结果进行发射线星、M型星和早型恒星识别。通过对(sloan digital sky survey, SDSS)(data release four, DR4)中的大量真实光谱数据实验表明,方法具有对噪声鲁棒等特点,发射线星识别率达到97.5%,M型星识别率达到98.1%,早型恒星识别率达到96.8%,类星体和星系的误识别率低于2%。该方法可对相对定标的巡天光谱进行自动识别,符合LAMOST数据的要求。  相似文献   

5.
类星体是人类所观测到的最遥远天体,对于了解早期宇宙的演化具有重要科学意义。由于类星体距离地球较远,其红移一般较大,导致在光学观测窗口中只有很少的特征(发射线),且难以识别。类星体光谱的异常特征提取与分析可对未知类星体的识别,提供有效的判别依据。离群检测作为数据挖掘领域的一个主要研究内容,旨在发现那些稀有、特殊数据对象及异常特征,可作为从海量类星体光谱数据中,发现特殊、未知类星体的一种有效途径和手段。Spark作为新一代大数据分布式处理框架,可为海量天体光谱的有效分析和处理,提供一个高效且可靠的并行编程平台。本文充分利用集群系统和Spark编程模型的强大数据处理能力,提出一种基于稀疏子空间的类星体光谱异常特征并行提取与分析方法,其工作由三个模块组成,即类星体光谱特征约减、类星体光谱的稀疏子空间构造和搜索、类星体光谱异常特征提取并行算法设计与分析。类星体光谱特征约减模块,通过属性相关性分析来识别呈现聚类结构的类星体光谱特征线,这些特征线通常会聚集在稠密区域且对类星体光谱异常特征检测毫无意义。光谱特征约减旨在运行异常特征检测算法之前剪枝类星体光谱的冗余特征线,缩小光谱数据检测范围。类星体光谱的稀疏子空间构造和搜索模块,通过设定的稀疏系数阈值来测量类星体光谱的子空间密度,并采用粒子群优化方法作为稀疏子空间的搜索策略,从而快速、高效地获取类星体的异常特征。在第三个模块中,提出了一种MapReduce框架下的类星体光谱异常数据并行检测算法,该算法由并行化数据约减策略、稀疏子空间并行搜索技术两个MapReduce构成,达到适应海量光谱数据的处理目标。最后对检测出的部分类星体异常特征进行了理论分析、测量及人眼证认,充分说明稀疏子空间可为识别特殊、未知类星体候选源,提供有效支持和有力证据。  相似文献   

6.
LAMOST巡天已获取超过100 000条星系光谱,为探索珍贵、稀有的天体从而完善现有科学理论提供了重要的数据条件。研究采用基于相关子空间的离群挖掘方法,从LAMOST DR3星系光谱数据中获得的离群数据挖掘结果中,针对呈现出多种稀有特征的光谱J140242.45+092049.8进行了深入分析。首先利用特征光谱线进行红移测量并交叉SDSS同源光谱提供的红移信息,测量并证认了该光谱的两套红移系统:吸收线系统z1=0.020 95、发射线系统z2=0.069 5。从整体上,通过交叉现有文献及SDSS图像特征,分析了该“吸收+发射”模式的双红移系统属于透镜星系的可能性,而红移间隔Δz=0.048远大于Keel指出的双星系具有物理关系的临界0.008,意味着该目标前景与背景星系之间只是视向重叠,即视向星系对,没有相互的物理作用;对于前景星系(吸收线系统),通过测量光谱中呈现的特殊的特征线强度,分析了属于E+A星系的可能性;对于背景星系(发射线系统)光谱中呈现的双峰特征,分析了该光谱来自双峰发射线星系的可能性;此外,初步分析了该光谱中背景星系发射线强度关系异常的原因。  相似文献   

7.
由于人类对宇宙的认识有限,因此,如何通过对光谱数据分析发现一些新的、特殊的天体成为天文学家面临的重要课题。目前,常见特殊天体发现方法的基本思想是利用智能分类算法对离群数据进行分析。然而,当前主流分类算法大多对离群数据不敏感,分类性能甚至受离群点影响较大,因而无法完成特殊天体发现任务。鉴于此,提出基于模糊大间隔最小球分类模型的离群数据挖掘方法,该方法利用部分一般样本和离群样本建立最小球模型,并在此基础上引入模糊技术,通过降低噪声的权重,尽量减少噪声的影响。与C-SVM,SVDD,KNN等传统分类方法在SDSS恒星光谱数据集上的比较实验表明所提方法的有效性。  相似文献   

8.
低分辨率天体光谱中呈现的双峰发射线轮廓可能反映着比较珍稀的物理现象,如双活动星系核(AGNs)、双超大质量黑洞(SMBH)、喷流云与窄线区的相互作用,也可能是光谱处理过程产生的低质量特征线。双峰发射线轮廓一般由2个或2个以上的波峰构成,对该特征进行提取并分析,可作为双AGN、星系对、双黑洞等稀有天体更有效的搜寻依据,从而有助于更深入地研究星系乃至宇宙的形成与演化。提出一种新的基于相关子空间的双峰发射线特征提取与分析方法,主要工作分为以下三部分:首先利用稀疏差异因子δ度量双峰发射线光谱中属性差异程度,利用KNN方法约束参与稀疏差异因子计算的光谱范围,在此基础上,针对LAMOST低分辨率光谱给出基于相关子空间的特征提取方法;其次,为了验证稀疏差异因子σ以及KNN的输入参数k对双峰发射线光谱的适应性,选择LAMOST双峰发射线光谱样本及普通星系光谱数据,红移范围z<0.3(确保Hα,Hβ,[OⅢ]λλ4 959, 5 007,[NⅡ]λλ6 548, 6 584,[SⅡ]λλ6 717, 6 731等发射线落在LAMOST波长覆盖范围),获得训练集光谱总数332+332(正负样本)条,并借助人眼检查分析该方法中的两个参数:kδ阈值α对结果的影响,实验表明,当k=18=0.6时,相关属性分布较密集且稀疏点较少,结果比较理想;最后,对332条双峰发射线光谱特征子空间所在的波长区间、双峰红/蓝移间隔、双峰线强比等进行了理论分析、测量及人眼认证的基础上,给出了基于相关子空间的双峰发射线特征表述。此外,从双峰特征子空间上不同的发射线激发机制([OⅢ]/[NⅡ]/[SⅡ]等禁线、Hα、Hβ等氢线)及相关特征子空间上线强关系等角度,对样本中双峰轮廓进行了分析。  相似文献   

9.
基于卷积型小波包变换的谱线自动提取方法   总被引:3,自引:2,他引:1  
天体光谱中的谱线包含重要的天体物理信息。文章提出一种基于卷积型小波包变换的谱线自动提取方法。该方法由以下主要步骤组成:(1)将观测光谱进行4层卷积型小波包变换;(2)对第四层小波包系数,采用区域相关算法以及阈值处理方法进行噪声处理;(3)选择中高频小波包系数进行谱线特征重构;(4)根据重构后的谱线特征,利用谱线搜索方法,在观测光谱中提取谱线。作者在实验中用恒星、正常星系和活动星系光谱进行谱线提取测试,结果表明该方法具有对噪声鲁棒和谱线提取准确等特点。用该方法提取sloan digital sky survey(SDSS)光谱中的谱线后,计算了红移并与SDSS给出的红移进行了对比,实验结果间接验证了该方法提取谱线的有效性。  相似文献   

10.
根据天体光谱自身的局部分形特征,对光谱中400~510,600~700和780~900 nm三个波段的数据分形编码,并以编码中匹配数据块位置与最小匹配误差为特征,将分形方法应用于天体光谱次型识别。实验表明,分形方法不受LAMOST流量定标误差、仪器效率曲线的影响,具有一定的抗噪性,可以有效地自动识别LAMOST与SDSS的M型恒星光谱次型。  相似文献   

11.
特殊恒星是金属丰度异常的恒星,其中包含的信息对于研究宇宙起源、太阳系的演变以及生命的演化都有着重要的意义。因此,特殊恒星的搜寻是国内外巡天项目中的重要目标。恒星光谱中包含着恒星的化学成分、物理性质以及运动状态等丰富的信息,它是开展恒星研究的重要依据。恒星的识别、分类以及特殊恒星的发现主要依据的是恒星光谱数据。随着LAMOST和SDSS等国内外大规模数字巡天项目的深入展开,恒星光谱的数据量达到了前所未有的高度,如此大的数据量为特殊恒星的发现提供了强有力的支撑。因此如何利用这些数据快速准确地发现特殊、稀少甚至于未知类型的恒星光谱是天文学研究的重要问题。数据挖掘是结合模式识别、机器学习、统计分析及相关专家背景知识,从数据中提取出隐含的过去未知的有价值的潜在信息的技术,其在处理大数据方面有着天然的优势,越来越多的数据挖掘方法被应用到巡天数据处理及分析之中。目前针对特殊恒星搜寻的数据挖掘算法主要包含随机森林、聚类分析以及异常值检测等,但随着巡天深度的拓展,观测的目标越来越暗,进而观测光谱的信噪比也随之变低。低信噪比光谱中存在着大量的无用信息,直接利用相关算法对其进行分析处理得到的结果往往存在很大的偏差。因此,如何从大量低信噪比恒星光谱巡天数据中有效地搜寻出特殊的恒星光谱,是当前面临的一个重要问题。由于低信噪比恒星光谱本身的特点,对于从中搜寻特殊恒星光谱的工作开展较少。为了解决此问题,在仔细研究光谱数据处理方法的基础上,针对低信噪比巡天数据中特殊恒星光谱的搜寻,提出了一种以主成分分析(PCA)和基于密度峰值聚类为基础的方法。该方法首先选取O,B,A,F,G,K和M各种类型的高信噪比恒星光谱,进行波长统一和流量插值后,利用主成分分析得到特征光谱;然后利用方差贡献率最大的前几个特征光谱对低信噪比的恒星光谱进行重构得到高信噪比的光谱;最后利用重构之后的高信噪比光谱进行聚类,聚类分析中得到的离群数据即为所要搜寻的特殊恒星光谱。在聚类时,考虑到恒星光谱数据本身的特点,采用了一种基于密度峰值的聚类方法来进行聚类及离群点的挖掘。实验表明,该方法能够在低信噪比的恒星光谱巡天数据中准确地搜寻出数量相对较少的特殊恒星。同时,也可应用于诸如LAMOST、SDSS等各种银河系巡天的光谱数据分析与挖掘中。  相似文献   

12.
基于谱线检测的发射线星自动识别方法   总被引:1,自引:0,他引:1  
刘中田  邱宽民  杨金福 《光学学报》2008,28(6):1101-1105
针对我国即将建成的大型巡天项目(LAMOST),给出了一种基于谱线检测的发射线星自动识别方法.主要步骤:1)通过获取谱线特征匹配值进行恒星谱线整体估计;2)利用提取出的恒星谱线特征检测恒星的巴耳末(Balmer)线;3)对获取的特征匹配值采用阈值法,并结合恒星Balmer线的检测结果,进行发射线里判别.通过对SDSS DR4所有光谱进行识别,共获得了242条具有恒星发射线的特殊天体.根据星表查询结果,这些天体包括发射线星、激变变星和一些未知特殊天体等.大量真实光谱数据实验表明,本文方法可有效识别发射线星.  相似文献   

13.
恒星光谱分类是天文数据处理中一项非常重要的工作,主要对海量光谱巡天数据按照其物理性质进行分类。利用残差分布度量的方法对LAMOST巡天中观测到的 M矮星光谱进行细分类研究。残差分布度量是一种光谱间的距离度量方法,计算光谱之间的距离时,先将两条光谱进行归一化处理,之后计算对应波长采样点处的残差,最终以残差分布的标准差作为光谱之间的距离。使用LAMOST DR2中释放的M矮星光谱进行细分类实验。实验结果表明,残差分布度量方法能比较准确地对M矮星光谱数据进行细分类。还研究了信噪比、离群点以及残差标准化系数等因素对分类结果的影响。  相似文献   

14.
基于谱线特征匹配的恒星光谱自动识别方法   总被引:1,自引:0,他引:1  
我国正在实施的大型巡天项目(LAMOST项目),急需恒星光谱的自动识别系统。文章给出了一种基于谱线特征匹配的恒星光谱自动识别方法。该方法由以下主要步骤组成:(1) 利用小波变换的方法对观测光谱进行谱线特征提取;(2) 将提取出的特征和恒星谱线的特征模板进行相关匹配;(3) 根据相关匹配结果进行恒星光谱识别。通过对Sloan Digital Sky Survey (SDSS),Data Release Four (DR4)中的大量真实光谱数据实验表明,该方法具有对噪声鲁棒等特点,正确识别率高达96.7%。该方法可对相对定标的巡天光谱进行自动识别,符合LAMOST数据的要求,可为天文学家进行恒星和银河系的结构等研究提供帮助。  相似文献   

15.
恒星的视向速度对于研究银河系的演化结构和动力学有很重要的意义,同时也是寻找变源和特殊天体的一种手段。不同的研究对其测量精度有不一样的要求。使用模板匹配的方法计算不同类型的低分辨率可见光波段恒星光谱的视向速度精度,从而为不同方面的科学研究提供有效可靠的参考。分别选取不同光谱型高信噪比的美国斯隆巡天恒星光谱,并加以噪声来模拟不同信噪比条件下的恒星光谱。通过分别计算这些恒星样本的视向速度,定量分析了各种类型的恒星在不同信噪比条件下能达到的视向速度测量精度。同时,还就白矮星的视向速度测量精度进行了分析。结果显示,对于相同信噪比的早型恒星的视向速度测量精度远没有晚型恒星的测量精度高,尤其是A型星的视向速度测量标准误差是K型星和M型星的5~8倍。分析其原因,主要是由于不同类型恒星的具有不同宽度的谱线所导致的。因此对于具有更宽谱线的白矮星光谱的视向速度测量误差更大,可达50 km·s-1。以上结论将为恒星科学研究提供很好的参考。  相似文献   

16.
基于Isomap算法的恒星光谱离群点挖掘   总被引:1,自引:0,他引:1  
如何从已分类的海量光谱中发现被错分的光谱一直是天文数据处理专家重点研究的问题,探讨的Isomap算法在该问题方面有很好的表现。通过Isomap算法与主成分分析方法(PCA)算法的实验结果对比发现:(1)PCA将具有不同特征的光谱投影到邻近的区域,而Isomap算法却可以将具有相似特征的光谱投影到邻近区域,而将具有不同特征的光谱投影到相距较远的区域;(2)Isomap算法给出的大部分离群点较易判断,且是具有很高科学价值的双星;而PCA给出的离群点难以判断,科学价值不高。因此,在光谱离群点发掘上Isomap算法比PCA有明显优势。由于使用的数据为SDSS最新发布的M型的九种光谱次型的光谱,因而Isomap算法能够快速发现被斯隆数字巡天数据处理流程(SDSS pipeline)错分的光谱,可帮助有效提高现有光谱分类算法的准确率。更进一步,由于被SDSS pipeline错分的光谱大部分是双星,因而Isomap算法还可以进一步帮助我们发现有很高科学研究价值的双星,提高双星的发现效率。虽然实验显示Isomap算法对信噪比变化较为敏感,在具有较低信噪比的光谱上表现较差,但由于信噪比低的光谱的光谱型难以判断,因而该缺点并不影响Isomap算法的在光谱发掘上的应用。  相似文献   

17.
天体光谱中蕴含着非常丰富的天体物理信息,通过对光谱的分析,可以得到天体的物理信息、化学成分以及天体的大气参数等。随着LAMOST和SDSS等大规模巡天望远镜的实施,将会产生海量的光谱数据,尤其是LAMOST正式运行后,每个观测夜产生大约2~4万条光谱数据。如此海量的光谱数据对光谱的快速有效的处理提出了更高的要求。恒星光谱的自动分类是光谱处理的一项基本内容,该研究主要工作就是研究海量恒星光谱的自动分类技术。Lick线指数是在天体光谱上定义的一组用以描述光谱中谱线强度的标准指数,代表光谱的物理特性,以每个线指数最突出的吸收线命名,是一个相对较宽的光谱特征。研究了基于Lick线指数的贝叶斯光谱分类方法,对F,G,K三类恒星进行分类。首先,计算各类光谱的Lick线指数作为特征向量,然后利用贝叶斯分类算法对三类恒星进行分类。针对海量光谱的情况,基于Hadoop平台实现了Lick线指数的计算,以及利用贝叶斯决策进行光谱分类的方法。利用Hadoop HDFS高吞吐率和高容错性的特点,结合Hadoop MapReduce编程模型的并行优势,提高了对大规模光谱数据的分析和处理效率。该研究的创新点为:(1) 以Lick线指数作为特征,基于贝叶斯算法实现恒星光谱分类;(2) 基于Hadoop MapReduce分布式计算框架实现Lick线指数的并行计算以及贝叶斯分类过程的并行化。  相似文献   

18.
恒星大气物理参量(有效温度、表面重力、化学丰度)是导致恒星光谱差异的主要因素。恒星大气物理参量的自动测量是LAMOST等大规模巡天望远镜所产生的海量天体光谱数据自动处理中一个重要研究内容。文章采用两种非线性核回归方法对低分辨率恒星光谱进行3个物理参量的自动估计:核最小二乘回归(KLSR),核PCA回归(KPCR)。实验表明:(1)KLSR与KPCR可以实现光谱到表面有效温度和表面重力的回归,但是KLSR对噪声敏感,KPCR鲁棒性好于前者;(2)对于温度参数估计,两种算法具有相近的估计效果;对于表面重力和化学丰度估计,KPCR优于KLSR和非参数回归方法;(3)KLSR与KPCR方法实现容易,模型的训练速度快,运算复杂度小,适用于恒星光谱物理参量的自动测量。  相似文献   

19.
恒星的连续谱是由于黑体辐射导致的光辐射强度随波长(频率)连续光滑变化的光谱。每条观测到的光谱数据中都会包含连续谱、谱线和噪声。恒星的分类主要是依据光谱的谱线、连续谱的相对强度以及光谱的其他特征。恒星连续谱的分布以及谱线的轮廓是由恒星大气内的物理因素决定的,也可以根据连续谱及谱线对恒星大气的物理参数进行估计。因而处理光谱的主要问题就是提取连续谱,并且通过归一化进行谱线的提取。恒星连续谱提取的算法主要有多项式逼近、中值滤波、形态滤波以及小波滤波等,但是这些方法对于低质量光谱处理的鲁棒性不是很好,因此有必要研究一种新的算法对低质量光谱的连续谱进行提取。在仔细分析恒星低质量连续谱的基础上,提出一种基于蒙特卡罗方法的低质量恒星连续谱拟合方法。该方法对恒星光谱筛选过程中不在范围内的点利用蒙特卡罗均匀分布进行自动插值,让每一个波长都对应一个流量点,然后对这些流量点进行低阶多项式迭代拟合,从而得到连续谱。为了验证算法对不同信噪比的低质量光谱连续谱提取的鲁棒性,利用不同的信噪比在原始光谱中加入不同的高斯白噪声对低质量光谱进行模拟。结果表明蒙特卡罗算法对不同信噪比的低质量光谱的拟合具有较高的精度与较强的鲁棒性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号