首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 156 毫秒
1.
面向LAMOST的天体光谱离群数据挖掘系统研究   总被引:4,自引:3,他引:1  
在宇宙中寻求未知天体是人类探索宇宙奥妙所追求的目标之一,离群数据挖掘是发现未知天体光谱数据的一种有效途径。文章首先以VC++和Oracle9i为开发工具,设计与实现了面向LAMOST的恒星光谱离群数据挖掘系统,并给出了其软件体系结构和模块功能。其次,对基于中值滤波器的恒星光谱数据预处理、基于距离的恒星光谱数据聚类、基于距离支持度的恒星光谱数据离群数据挖掘、基于主分量分析法PCA的恒星光谱数据离群数据的三维可视化等主要关键技术进行了详细描述。最后,基于SDSS恒星光谱数据的运行结果表明,利用该系统寻找天体光谱离群数据是可行的,从而为寻找未知的、特殊的天体光谱数据提供了一种新途径。  相似文献   

2.
大规模光谱巡天将产生海量的光谱数据,为搜寻一些奇异甚至于未知类型的光谱提供了机会,对这些特殊天体的研究有助于揭示宇宙的演变规律和生命起源,巡天数据的离群数据挖掘有助于这些特殊的光谱的发现。利用线指数对光谱数据进行降维能够在尽可能多的保留光谱物理特征的同时,有效解决高维光谱数据聚类分析中运算复杂度较高的问题。提出了基于线指数特征的海量恒星光谱离群数据挖掘及分析的方法,以恒星光谱的Lick线指数作为光谱数据的特征,利用聚类搜寻离群数据的方法在海量光谱巡天数据搜寻离群数据,以此为基础并给出线指数特征空间内离群光谱数据的分析方法。实验结果证明:(1)以线指数作为光谱的特征值能快速的完成对高维光谱数据的离群数据挖掘,可以解决高维光谱数据运算复杂度高的问题;(2)该方法是在聚类结果上进行的离群数据挖掘,能够有效的挖掘出数量较少的发射线恒星、晚M型恒星、极贫金属星、缺失数据光谱等数据;(3)线指数特征空间的离群数据挖掘可以得到线指数特征空间内特殊恒星的发现规则。本文所提出的基于线指数特征的离群数据挖掘及分析方法可以应用到巡天数据的相关研究中。  相似文献   

3.
探索海量的M型恒星中具有磁活动、巨星等较特殊、稀有的天体,对于后续观测、银河系结构、演化等科学研究具有重要的意义,针对M型恒星光谱特征线出现在子空间中的局部偏离,设计并实现了晚型恒星离群数据挖掘系统。首先采用稀疏因子和稀疏度系数度量样本在属性空间上的分布特征,并在此基础上对M型恒星光谱特征线进行离散化、降维等预处理,获得光谱子空间;然后采用微粒群算法搜索离群子空间,并证认子空间内光谱是否离群;此外,选择SDSS M型光谱特征线指数集为样本,实验分析了稀疏因子和稀疏度系数的设置对离群结果的影响,并将离群挖掘结果与SDSS提供光谱型等参数对照,表明利用该系统实现晚型恒星光谱特征线局部离群数据挖掘是可行并有价值的。  相似文献   

4.
一种基于约束概念格的恒星光谱数据自动分类方法   总被引:1,自引:0,他引:1  
概念格是数据分析与知识提取的一种有效形式化工具,约束概念格是一种新的概念格结构,具有构造的时空复杂性低,所提取知识的实用性和针对性强等特点。针对海量恒星光谱自动分类任务,依据约束概念格结点外延与训练样本数据集等价划分之间的关系,通过引入外延支持度和划分支持度的概念,提出了一种基于约束概念格的恒星光谱数据分类规则挖掘方法,并采用SDSS恒星光谱数据集,实验验证了由该方法所提取出的分类规则具有较高的分类效率和分类正确率,从而为海量的恒星光谱数据自动分类提供了一种有效方法。  相似文献   

5.
从海量天体光谱数据中挖掘光谱数据特征和物理化学性质之间内在的、隐含的相关性,是人类探索天文规律的一种有效方法。利用基于约束FP树的关联规则挖掘方法作为天体光谱数据相关性分析手段,采用VC++和Oracle9i作为开发工具,设计与实现了天体光谱数据相关性分析系统,给出了其系统的软件体系结构和模块功能,并对光谱数据预处理、背景知识表示、CFP树构造、频繁模式提取及关联规则生成等关键技术以及关键模块的实现技术,进行了详细描述。系统运行结果表明,利用关联规则来描述、分析天体光谱数据特征和物理化学性质之间存在的相关性,是可行的和有价值的,从而为寻找天体规律提供了一种有效手段。  相似文献   

6.
由于人类对宇宙的认识有限,因此,如何通过对光谱数据分析发现一些新的、特殊的天体成为天文学家面临的重要课题。目前,常见特殊天体发现方法的基本思想是利用智能分类算法对离群数据进行分析。然而,当前主流分类算法大多对离群数据不敏感,分类性能甚至受离群点影响较大,因而无法完成特殊天体发现任务。鉴于此,提出基于模糊大间隔最小球分类模型的离群数据挖掘方法,该方法利用部分一般样本和离群样本建立最小球模型,并在此基础上引入模糊技术,通过降低噪声的权重,尽量减少噪声的影响。与C-SVM,SVDD,KNN等传统分类方法在SDSS恒星光谱数据集上的比较实验表明所提方法的有效性。  相似文献   

7.
类星体是人类所观测到的最遥远天体,对于了解早期宇宙的演化具有重要科学意义。由于类星体距离地球较远,其红移一般较大,导致在光学观测窗口中只有很少的特征(发射线),且难以识别。类星体光谱的异常特征提取与分析可对未知类星体的识别,提供有效的判别依据。离群检测作为数据挖掘领域的一个主要研究内容,旨在发现那些稀有、特殊数据对象及异常特征,可作为从海量类星体光谱数据中,发现特殊、未知类星体的一种有效途径和手段。Spark作为新一代大数据分布式处理框架,可为海量天体光谱的有效分析和处理,提供一个高效且可靠的并行编程平台。本文充分利用集群系统和Spark编程模型的强大数据处理能力,提出一种基于稀疏子空间的类星体光谱异常特征并行提取与分析方法,其工作由三个模块组成,即类星体光谱特征约减、类星体光谱的稀疏子空间构造和搜索、类星体光谱异常特征提取并行算法设计与分析。类星体光谱特征约减模块,通过属性相关性分析来识别呈现聚类结构的类星体光谱特征线,这些特征线通常会聚集在稠密区域且对类星体光谱异常特征检测毫无意义。光谱特征约减旨在运行异常特征检测算法之前剪枝类星体光谱的冗余特征线,缩小光谱数据检测范围。类星体光谱的稀疏子空间构造和搜索模块,通过设定的稀疏系数阈值来测量类星体光谱的子空间密度,并采用粒子群优化方法作为稀疏子空间的搜索策略,从而快速、高效地获取类星体的异常特征。在第三个模块中,提出了一种MapReduce框架下的类星体光谱异常数据并行检测算法,该算法由并行化数据约减策略、稀疏子空间并行搜索技术两个MapReduce构成,达到适应海量光谱数据的处理目标。最后对检测出的部分类星体异常特征进行了理论分析、测量及人眼证认,充分说明稀疏子空间可为识别特殊、未知类星体候选源,提供有效支持和有力证据。  相似文献   

8.
基于支撑矢量机的天体光谱自动分类方法   总被引:3,自引:2,他引:1  
天体光谱自动识别系统的主要目标是对天体进行分类和参数测量。文章提出一种新的基于支撑矢量机的非活动天体与活动天体的自动分类方法。在信噪比低的时候 ,由于红移值未知使得噪声与发射谱线难于辨别 ,因此不能单纯依靠寻找发射谱线来确定是否为活动天体。据此 ,在低噪声情况下对非活动天体与活动天体的区分成为难点。本方法结合主分量分析法和支撑矢量机 ,能够对红移值未知的活动天体与非活动天体比较有效地进行自动光谱分类 ,对天文界的大型巡天计划中的海量观测数据自动处理有比较重要的应用价值。  相似文献   

9.
特殊恒星是金属丰度异常的恒星,其中包含的信息对于研究宇宙起源、太阳系的演变以及生命的演化都有着重要的意义。因此,特殊恒星的搜寻是国内外巡天项目中的重要目标。恒星光谱中包含着恒星的化学成分、物理性质以及运动状态等丰富的信息,它是开展恒星研究的重要依据。恒星的识别、分类以及特殊恒星的发现主要依据的是恒星光谱数据。随着LAMOST和SDSS等国内外大规模数字巡天项目的深入展开,恒星光谱的数据量达到了前所未有的高度,如此大的数据量为特殊恒星的发现提供了强有力的支撑。因此如何利用这些数据快速准确地发现特殊、稀少甚至于未知类型的恒星光谱是天文学研究的重要问题。数据挖掘是结合模式识别、机器学习、统计分析及相关专家背景知识,从数据中提取出隐含的过去未知的有价值的潜在信息的技术,其在处理大数据方面有着天然的优势,越来越多的数据挖掘方法被应用到巡天数据处理及分析之中。目前针对特殊恒星搜寻的数据挖掘算法主要包含随机森林、聚类分析以及异常值检测等,但随着巡天深度的拓展,观测的目标越来越暗,进而观测光谱的信噪比也随之变低。低信噪比光谱中存在着大量的无用信息,直接利用相关算法对其进行分析处理得到的结果往往存在很大的偏差。因此,如何从大量低信噪比恒星光谱巡天数据中有效地搜寻出特殊的恒星光谱,是当前面临的一个重要问题。由于低信噪比恒星光谱本身的特点,对于从中搜寻特殊恒星光谱的工作开展较少。为了解决此问题,在仔细研究光谱数据处理方法的基础上,针对低信噪比巡天数据中特殊恒星光谱的搜寻,提出了一种以主成分分析(PCA)和基于密度峰值聚类为基础的方法。该方法首先选取O,B,A,F,G,K和M各种类型的高信噪比恒星光谱,进行波长统一和流量插值后,利用主成分分析得到特征光谱;然后利用方差贡献率最大的前几个特征光谱对低信噪比的恒星光谱进行重构得到高信噪比的光谱;最后利用重构之后的高信噪比光谱进行聚类,聚类分析中得到的离群数据即为所要搜寻的特殊恒星光谱。在聚类时,考虑到恒星光谱数据本身的特点,采用了一种基于密度峰值的聚类方法来进行聚类及离群点的挖掘。实验表明,该方法能够在低信噪比的恒星光谱巡天数据中准确地搜寻出数量相对较少的特殊恒星。同时,也可应用于诸如LAMOST、SDSS等各种银河系巡天的光谱数据分析与挖掘中。  相似文献   

10.
SDSS-DR10是美国SLOAN巡天望远镜发布的最新数据,包含了首批APOGEE光谱。这些海量的天文光谱除了可以用来探寻银河系的结构和进行多波段证认外,还蕴藏着包括白矮主序双星在内的特殊天体。白矮主序双星是一类特殊的双星系统,它由两颗主序星演化而来,包含了中低质量恒星演化的终点—白矮星,以及M矮星。白矮主序双星对于密近双星的演化和参数研究有积极的意义。目前针对这类特殊天体的发现主要使用测光筛选结合后期观测证认的方法,不但准确率低,而且需要耗费较多的人工处理时间,无法满足在海量光谱数据中快速发现目标天体的需要。提出一种适用于在海量天文光谱中自动、快速发现白矮主序双星的方法。该方法针对SDSS的DR10数据,使用改进的遗传算法对海量光谱进行自动识别,寻找白矮主序双星候选体。实验共发现了4, 140个白矮主序双星,通过交叉证认,其中24个是未被收录的新的源。验证了遗传算法在天文数据挖掘和自动搜索方面的有效性,为在海量光谱中快速发现特殊天体提供了另一途径。该方法也可用于在其他巡天望远镜的海量光谱中进行特定天体的自动识别。提供了新发现的白矮主序双星的赤经、赤纬等信息,补充了现有的白矮主序双星光谱库。  相似文献   

11.
基于相融性度量的光谱分类方法   总被引:2,自引:2,他引:0  
海量天体光谱的自动分类以及从海量天体光谱中发现新类型天体或新的天文规律(知识发现)已经受到天文工作者的普遍关注。在相关文献中这两方面的研究工作都是分别进行的。文章首先提出了一种相融性度量的概念,该度量能够刻画一个样本与训练样本集融合为一体的程度。然后,在此基础上给出了一种基于相融性度量的k-近邻分类方法。该方法不仅能够实现较准确的分类,而且还具有相当好的知识发现能力。通过对活动星系与活动星系核实验表明,该方法无论对分类还是对知识发现都是非常有效的。  相似文献   

12.
多目标光纤光谱望远镜可以在一次观测中获得大量的不同天体的光谱数据。从天体探测到的光在通过光纤之后,再通过光谱仪狭缝,然后在CCD传感器中成像为二维光谱图;之后经过光纤光谱数据处理系统的一系列软件处理,最终输出可供天文界使用的一维光谱并存储起来。一维光谱是天文学家研究目标天体的主要手段,它是通过处理二维光谱图得到的。以LAMOST为例,望远镜系统在一次观测后首先会得到32幅由250条光纤光谱组成的二维光谱,然后经过一系列的处理得到一维光谱。在这个过程中,会有很多因素影响到最终一维光谱的精确度。比如由于望远镜使用时间的增加,某些元件会产生磨损、老化或变形,使得二维光谱中光纤形状会产生一定程度的弯曲,这种弯曲在二维光谱的两侧表现得尤为明显。在一幅常见的二维光谱中,纵坐标方向代表了抽取的一维光谱的波长方向,横坐标方向代表了抽取的一维光谱的流量方向,这种弯曲形变的产生会影响到之后的波长定标和流量定标,使得抽取的一维谱信息不准确。目前初步的解决办法是通过与定标灯谱的比对来尽量减少其影响。但这样不仅造成了时间和人力的浪费,而且准确率和效率不高。就这一现状,提出了一种基于曲线距离法的思想,将弯曲的二维谱线校直:首先采用灰度重心法将一幅二维光谱中的250条光纤中心轨迹进行定位,将异常点采用稳健的局部回归方法剔除;然后将中心轨迹进行曲线拟合,得到光纤中心轨迹的方程;通过模仿曲线变弯的逆过程,即保持轨迹上两点间的曲线距离不变,再将弯曲的光谱映射到竖直的法线上,完成校直过程。在整个过程中保持各个对应点的灰度值不变,通过边缘处理和插值运算解决产生的像素点稀疏问题。最后采用累加法进行一维谱抽取,并将校直后抽取的一维光谱与未校直抽取的一维光谱进行比对,比对后可发现校直前后在一维光谱的两端差别较大,其差值谱线也说明了这一点。该方法实现了二维光谱的自动校直,大大提高了抽取一维谱的效率和准确性。二维光谱的预处理和校直方法首先在LAMOST数据上进行验证,鉴于多目标光纤光谱望远镜系统原理的相似性,该处理方法也适用于其他的多目标光纤光谱望远镜系统,具有较好的参考和应用价值。  相似文献   

13.
连续数值属性离散化是天文光谱数据预处理中的主要研究内容之一。针对天文光谱特征线,提出了一种基于改进模糊C均值聚类的天文光谱特征线软离散化算法。该算法首先利用样本的密度值选取特征线的候选初始模糊聚类中心,有效地克服了对噪声数据敏感的缺陷;其次采用决策表中的相容性作为评判标准,动态的调节聚类参数,以达到优化的光谱特征线离散化效果;最后采用晚型星、类星体、高红移类星体SDSS天文光谱特征线数据集。实验验证了该算法具有较高的识别率,为天文光谱特征线数据预处理提供了一种新途径。  相似文献   

14.
LAMOST-DR1是郭守敬望远镜正式巡天发布的首批数据,其数量超过目前世界上所有已知恒星巡天项目的光谱总数。这为进一步扩大特殊和稀少天体如激变变星的数量提供了样本,同时也对天文数据处理方法和技术提出了更高的要求。针对LAMOST的数据特点,提出一种能够在海量天体光谱中自动、快速发现激变变星的方法。该方法使用拉普拉斯特征映射对天体光谱进行降维和重构。结果表明不同类别的天体光谱在拉普拉斯空间中能够得到较明显的区分。在使用粒子群算法对神经网络的参数进行优化后,对LAMOST-DR1的全部数据进行了自动识别。实验共发现了7个激变变星,经过证认,其中2个是矮新星,2个是类新星,1个是高度极化的武仙座AM型。这些光谱,补充了现有的激变变星光谱库。本文验证了拉普拉斯特征映射对天体光谱进行特征提取的有效性,为高维光谱进行降维提供了另一途径。在郭守敬望远镜正式发布的数据中寻找激变变星的首次尝试,实验结果表明该自动化的方法鲁棒性好,速度快,准确率高。该方法也可用于其他大型巡天望远镜的海量光谱处理。  相似文献   

15.
对于河外天体,谱线证认和红移确定是光谱分析的第一步。本文在仔细分析天体光谱特点的基础上,提出了一种全新的求红移和证认谱线的新方法--伪三角法。该方法利用最强的三根谱线的波长信息构造“三角形”,通过将最大角的“余弦”与已知模板的“余弦”表相匹配,反推得到相应的标准谱线波长,并进而得到红移值。通过这个红移值,可以得到所有的谱线的标准位置,这就相当于谱线证认。结果表明:这种方法在大大减少运算量的同时,保持了较高的正确识别率和极低的误识率。这对海量光谱数据的处理具有重要的意义。同时,该方法立意新颖,简单明了,容易实现。缺点是对于谱线少于3根的光谱以及噪声很大的光谱不能有效地处理。  相似文献   

16.
我国大科学工程项目LAMOST巡天计划每观测夜能获取多达数万条天体光谱数据,天文学家通过对天体光谱的分析观察可以获取有效的天文信息用于天文学或天体物理学的研究。而针对海量数据,寻找自动方法分析天体光谱并进行天体各种物理参数的测量就具有重要研究意义和价值。这一课题也吸引了许多学者进行研究,但目前所尝试的算法和相应结果仍然需要进一步改进,针对这一需求深入研究了核岭回归(KRR)方法在恒星大气物理参数(包括有效温度、表面重力和金属丰度)自动测量方面的应用,特别是在我国大科学工程项目LAMOST所释放光谱数据上的应用。核岭回归是岭回归算法的进一步发展,而岭回归是最小二乘方法的一种变形,其具有解决高维多重共线性问题的能力。所以KRR方法适合于处理高维的天体光谱信息,从LAMOST的第五期释放数据中随机选择了2万条被识别为恒星的光谱数据用于实验测试,该数据既包含低信噪比数据,也包含高信噪比数据(g,r,i波段平均信噪比最低至6.7,最高到793)。首先,本文对光谱进行预处理,包括三个步骤:(1)利用小波变换对光谱数据进行去噪处理;(2)因为LAMOST采用的是后期修正的流量定标设计,所以还通过流量归一化来避免部分光谱流量值不准确的问题;(3)由于每条光谱维数高达数千维,利用主成分分析方法(PCA)对光谱进行了降维。然后,利用KRR方法建立了光谱数据和标准化后的三大参数值之间的回归模型。最后,通过设计进行不同的组合实验对KRR算法模型进行了测试分析,并与经典算法支持向量回归(SVR)进行了对比。综合所有实验结果显示KRR方法对应的有效温度、表面重力和金属丰度的测试平均绝对误差分别为82.9897 K,0.1858 dex和0.1211 dex,优于SVR的144.2308 K,0.1886 dex和0.1246 dex。特别是KRR在温度测试结果上有较大优势,由此表明KRR方法能够有效地应用于天体光谱特别是恒星光谱参数的自动测量处理中。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号