首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 218 毫秒
1.
采用信息熵思想,给出一种基于属性权值和wk-距离的异常天体光谱特征线挖掘方法,并开发了天体光谱异常特征线挖掘系统。首先采用信息熵思想计算天体光谱特征线属性权值,从而有效地刻画每条特征线的重要程度;其次采用邻域半径的剪枝技术,对海量天体光谱特征线数据集约简,删除不可能成为异常的数据对象,形成一个候选异常数据集;然后根据离候选异常数据中对象之间的偏差,计算wk-距离和,并选取wk-距离和较大的前TOP-NN个数据对象作为天文光谱异常特征线数据;最后采用SDSS恒星光谱特征线数据集,实验和系统运行结果验证了该方法的有效性和可行性。  相似文献   

2.
寻找特殊的、未知的天体是人类探索宇宙奥妙所追求的目标之一,天体光谱数据挖掘是实现该目标的一种有效方法。约束概念格是一种新的概念格结构,具有构造效率高、提取知识针对性和实用性强等特点。针对天体光谱数据在特征子空间中的局部偏离,采用VC++ 6.0和Oracle 9i作为开发工具,设计与实现了基于约束概念格的天体光谱局部离群数据挖掘系统,并对软件模块功能和体系结构,以及天体光谱数据预处理、约束概念格构造方法、基于链表结构的概念格构造、局部离群数据挖掘方法等关键技术进行了详细描述。运行结果表明,该系统实现天体光谱数据局部离群数据挖掘是可行的、有价值的,从而为寻找未知的、特殊的天体提供了一种新途径。  相似文献   

3.
面向LAMOST的天体光谱离群数据挖掘系统研究   总被引:4,自引:3,他引:1  
在宇宙中寻求未知天体是人类探索宇宙奥妙所追求的目标之一,离群数据挖掘是发现未知天体光谱数据的一种有效途径。文章首先以VC++和Oracle9i为开发工具,设计与实现了面向LAMOST的恒星光谱离群数据挖掘系统,并给出了其软件体系结构和模块功能。其次,对基于中值滤波器的恒星光谱数据预处理、基于距离的恒星光谱数据聚类、基于距离支持度的恒星光谱数据离群数据挖掘、基于主分量分析法PCA的恒星光谱数据离群数据的三维可视化等主要关键技术进行了详细描述。最后,基于SDSS恒星光谱数据的运行结果表明,利用该系统寻找天体光谱离群数据是可行的,从而为寻找未知的、特殊的天体光谱数据提供了一种新途径。  相似文献   

4.
类星体是人类所观测到的最遥远天体,对于了解早期宇宙的演化具有重要科学意义。由于类星体距离地球较远,其红移一般较大,导致在光学观测窗口中只有很少的特征(发射线),且难以识别。类星体光谱的异常特征提取与分析可对未知类星体的识别,提供有效的判别依据。离群检测作为数据挖掘领域的一个主要研究内容,旨在发现那些稀有、特殊数据对象及异常特征,可作为从海量类星体光谱数据中,发现特殊、未知类星体的一种有效途径和手段。Spark作为新一代大数据分布式处理框架,可为海量天体光谱的有效分析和处理,提供一个高效且可靠的并行编程平台。本文充分利用集群系统和Spark编程模型的强大数据处理能力,提出一种基于稀疏子空间的类星体光谱异常特征并行提取与分析方法,其工作由三个模块组成,即类星体光谱特征约减、类星体光谱的稀疏子空间构造和搜索、类星体光谱异常特征提取并行算法设计与分析。类星体光谱特征约减模块,通过属性相关性分析来识别呈现聚类结构的类星体光谱特征线,这些特征线通常会聚集在稠密区域且对类星体光谱异常特征检测毫无意义。光谱特征约减旨在运行异常特征检测算法之前剪枝类星体光谱的冗余特征线,缩小光谱数据检测范围。类星体光谱的稀疏子空间构造和搜索模块,通过设定的稀疏系数阈值来测量类星体光谱的子空间密度,并采用粒子群优化方法作为稀疏子空间的搜索策略,从而快速、高效地获取类星体的异常特征。在第三个模块中,提出了一种MapReduce框架下的类星体光谱异常数据并行检测算法,该算法由并行化数据约减策略、稀疏子空间并行搜索技术两个MapReduce构成,达到适应海量光谱数据的处理目标。最后对检测出的部分类星体异常特征进行了理论分析、测量及人眼证认,充分说明稀疏子空间可为识别特殊、未知类星体候选源,提供有效支持和有力证据。  相似文献   

5.
大规模光谱巡天将产生海量的光谱数据,为搜寻一些奇异甚至于未知类型的光谱提供了机会,对这些特殊天体的研究有助于揭示宇宙的演变规律和生命起源,巡天数据的离群数据挖掘有助于这些特殊的光谱的发现。利用线指数对光谱数据进行降维能够在尽可能多的保留光谱物理特征的同时,有效解决高维光谱数据聚类分析中运算复杂度较高的问题。提出了基于线指数特征的海量恒星光谱离群数据挖掘及分析的方法,以恒星光谱的Lick线指数作为光谱数据的特征,利用聚类搜寻离群数据的方法在海量光谱巡天数据搜寻离群数据,以此为基础并给出线指数特征空间内离群光谱数据的分析方法。实验结果证明:(1)以线指数作为光谱的特征值能快速的完成对高维光谱数据的离群数据挖掘,可以解决高维光谱数据运算复杂度高的问题;(2)该方法是在聚类结果上进行的离群数据挖掘,能够有效的挖掘出数量较少的发射线恒星、晚M型恒星、极贫金属星、缺失数据光谱等数据;(3)线指数特征空间的离群数据挖掘可以得到线指数特征空间内特殊恒星的发现规则。本文所提出的基于线指数特征的离群数据挖掘及分析方法可以应用到巡天数据的相关研究中。  相似文献   

6.
天体光谱中蕴含着非常丰富的天体物理信息,通过对光谱的分析,可以得到天体的物理信息、化学成分以及天体的大气参数等。随着LAMOST和SDSS等大规模巡天望远镜的实施,将会产生海量的光谱数据,尤其是LAMOST正式运行后,每个观测夜产生大约2~4万条光谱数据。如此海量的光谱数据对光谱的快速有效的处理提出了更高的要求。恒星光谱的自动分类是光谱处理的一项基本内容,该研究主要工作就是研究海量恒星光谱的自动分类技术。Lick线指数是在天体光谱上定义的一组用以描述光谱中谱线强度的标准指数,代表光谱的物理特性,以每个线指数最突出的吸收线命名,是一个相对较宽的光谱特征。研究了基于Lick线指数的贝叶斯光谱分类方法,对F,G,K三类恒星进行分类。首先,计算各类光谱的Lick线指数作为特征向量,然后利用贝叶斯分类算法对三类恒星进行分类。针对海量光谱的情况,基于Hadoop平台实现了Lick线指数的计算,以及利用贝叶斯决策进行光谱分类的方法。利用Hadoop HDFS高吞吐率和高容错性的特点,结合Hadoop MapReduce编程模型的并行优势,提高了对大规模光谱数据的分析和处理效率。该研究的创新点为:(1) 以Lick线指数作为特征,基于贝叶斯算法实现恒星光谱分类;(2) 基于Hadoop MapReduce分布式计算框架实现Lick线指数的并行计算以及贝叶斯分类过程的并行化。  相似文献   

7.
频繁模式是频繁出现在数据集中的模式,在数据挖掘中起着非常重要的作用。针对恒星光谱分类任务,在频繁模式的基础上,提出一种基于分类模式树的恒星光谱分类规则挖掘方法。首先根据数据库中恒星光谱各属性出现的频率不同,其在分类中的重要程度也不同的特征,提出一种新的树型结构——分类模式树,给出了相关概念及其构造方法SSCPTC,然后,将恒星光谱的特征信息映射到分类模式树上,通过采用自顶向下和自底向上两种模式相结合的方法对分类模式树进行遍历,实现分类规则的提取,同时引入模式有用度的概念来调整分类规则的数量、提高分类模式树的构造效率;最后采用国家天文台提供的SDSS恒星光谱作为实验数据,验证了该方法的正确性,而且具有较高的分类正确率。  相似文献   

8.
LAMOST巡天已获取超过100 000条星系光谱,为探索珍贵、稀有的天体从而完善现有科学理论提供了重要的数据条件。研究采用基于相关子空间的离群挖掘方法,从LAMOST DR3星系光谱数据中获得的离群数据挖掘结果中,针对呈现出多种稀有特征的光谱J140242.45+092049.8进行了深入分析。首先利用特征光谱线进行红移测量并交叉SDSS同源光谱提供的红移信息,测量并证认了该光谱的两套红移系统:吸收线系统z1=0.020 95、发射线系统z2=0.069 5。从整体上,通过交叉现有文献及SDSS图像特征,分析了该“吸收+发射”模式的双红移系统属于透镜星系的可能性,而红移间隔Δz=0.048远大于Keel指出的双星系具有物理关系的临界0.008,意味着该目标前景与背景星系之间只是视向重叠,即视向星系对,没有相互的物理作用;对于前景星系(吸收线系统),通过测量光谱中呈现的特殊的特征线强度,分析了属于E+A星系的可能性;对于背景星系(发射线系统)光谱中呈现的双峰特征,分析了该光谱来自双峰发射线星系的可能性;此外,初步分析了该光谱中背景星系发射线强度关系异常的原因。  相似文献   

9.
近红外光谱是利用漫反射来分析物质的某些化学性质,已在农业及其他许多领域得到广泛应用。尽管在实验室条件下,研究证明可以应用近红外光谱分析技术来快速、方便地测定土壤参数,但在田间大范围内应用红外光谱快速测定来分析土壤性质,仍然缺乏研究;该研究以田间行走式设备获取的红外光谱数据为基础,分析和比较了不同数据处理技术下红外光谱信息与土壤质地之间的相关性,发现应用基于算术运算的波段组合技术可以明显地提高红外光谱信息与土壤质地之间的相关性,为田间光谱数据的分析处理与应用提供了依据。  相似文献   

10.
大规模光谱巡天项目如LAMOST等产生了海量极具研究价值的观测数据,如何对此数量级的数据进行有效的分析是当前的一个研究热点。聚类算法是一类无监督的机器学习算法,可以在不依赖于领域知识的情况下对数据进行处理,发现其中的规律与结构。恒星光谱聚类是天文数据处理中一项非常重要的工作,主要对海量光谱巡天数据按照其物理及化学性质分类。针对LAMOST巡天中的早M型矮恒星的光谱数据,使用多种聚类算法如K-Means,Bisecting K-Means和OPTICS算法做了聚类分析,研究不同聚类算法在早M型恒星数据的表现。聚类算法在一定程度依赖于其使用的距离度量算法,同时研究了欧氏距离、曼哈顿距离、残差分布距离和上述三种聚类算法搭配下的表现。实验结果表明:(1)聚类算法可以很好地辅助分析早M型矮恒星的光谱数据,聚类产生的簇心数据和MK分类吻合得非常好。(2)三种不同聚类算法表现不尽相同,Bisecting K-Means在恒星光谱细分类方面更有优势。(3) 在聚类的同时也会产生一些数量较少的簇,从这些簇中可以发现一些稀有天体候选体,相对而言OPTICS适合用来寻找稀有天体候选体。  相似文献   

11.
由于人类对宇宙的认识有限,因此,如何通过对光谱数据分析发现一些新的、特殊的天体成为天文学家面临的重要课题。目前,常见特殊天体发现方法的基本思想是利用智能分类算法对离群数据进行分析。然而,当前主流分类算法大多对离群数据不敏感,分类性能甚至受离群点影响较大,因而无法完成特殊天体发现任务。鉴于此,提出基于模糊大间隔最小球分类模型的离群数据挖掘方法,该方法利用部分一般样本和离群样本建立最小球模型,并在此基础上引入模糊技术,通过降低噪声的权重,尽量减少噪声的影响。与C-SVM,SVDD,KNN等传统分类方法在SDSS恒星光谱数据集上的比较实验表明所提方法的有效性。  相似文献   

12.
多目标光纤光谱望远镜可以在一次观测中获得大量的不同天体的光谱数据。从天体探测到的光在通过光纤之后,再通过光谱仪狭缝,然后在CCD传感器中成像为二维光谱图;之后经过光纤光谱数据处理系统的一系列软件处理,最终输出可供天文界使用的一维光谱并存储起来。一维光谱是天文学家研究目标天体的主要手段,它是通过处理二维光谱图得到的。以LAMOST为例,望远镜系统在一次观测后首先会得到32幅由250条光纤光谱组成的二维光谱,然后经过一系列的处理得到一维光谱。在这个过程中,会有很多因素影响到最终一维光谱的精确度。比如由于望远镜使用时间的增加,某些元件会产生磨损、老化或变形,使得二维光谱中光纤形状会产生一定程度的弯曲,这种弯曲在二维光谱的两侧表现得尤为明显。在一幅常见的二维光谱中,纵坐标方向代表了抽取的一维光谱的波长方向,横坐标方向代表了抽取的一维光谱的流量方向,这种弯曲形变的产生会影响到之后的波长定标和流量定标,使得抽取的一维谱信息不准确。目前初步的解决办法是通过与定标灯谱的比对来尽量减少其影响。但这样不仅造成了时间和人力的浪费,而且准确率和效率不高。就这一现状,提出了一种基于曲线距离法的思想,将弯曲的二维谱线校直:首先采用灰度重心法将一幅二维光谱中的250条光纤中心轨迹进行定位,将异常点采用稳健的局部回归方法剔除;然后将中心轨迹进行曲线拟合,得到光纤中心轨迹的方程;通过模仿曲线变弯的逆过程,即保持轨迹上两点间的曲线距离不变,再将弯曲的光谱映射到竖直的法线上,完成校直过程。在整个过程中保持各个对应点的灰度值不变,通过边缘处理和插值运算解决产生的像素点稀疏问题。最后采用累加法进行一维谱抽取,并将校直后抽取的一维光谱与未校直抽取的一维光谱进行比对,比对后可发现校直前后在一维光谱的两端差别较大,其差值谱线也说明了这一点。该方法实现了二维光谱的自动校直,大大提高了抽取一维谱的效率和准确性。二维光谱的预处理和校直方法首先在LAMOST数据上进行验证,鉴于多目标光纤光谱望远镜系统原理的相似性,该处理方法也适用于其他的多目标光纤光谱望远镜系统,具有较好的参考和应用价值。  相似文献   

13.
连续数值属性离散化是天文光谱数据预处理中的主要研究内容之一。针对天文光谱特征线,提出了一种基于改进模糊C均值聚类的天文光谱特征线软离散化算法。该算法首先利用样本的密度值选取特征线的候选初始模糊聚类中心,有效地克服了对噪声数据敏感的缺陷;其次采用决策表中的相容性作为评判标准,动态的调节聚类参数,以达到优化的光谱特征线离散化效果;最后采用晚型星、类星体、高红移类星体SDSS天文光谱特征线数据集。实验验证了该算法具有较高的识别率,为天文光谱特征线数据预处理提供了一种新途径。  相似文献   

14.
基于相融性度量的光谱分类方法   总被引:2,自引:2,他引:0  
海量天体光谱的自动分类以及从海量天体光谱中发现新类型天体或新的天文规律(知识发现)已经受到天文工作者的普遍关注。在相关文献中这两方面的研究工作都是分别进行的。文章首先提出了一种相融性度量的概念,该度量能够刻画一个样本与训练样本集融合为一体的程度。然后,在此基础上给出了一种基于相融性度量的k-近邻分类方法。该方法不仅能够实现较准确的分类,而且还具有相当好的知识发现能力。通过对活动星系与活动星系核实验表明,该方法无论对分类还是对知识发现都是非常有效的。  相似文献   

15.
吴永昊  刘玉颖  宋敏 《大学物理》2020,(2):69-73,77
运动、力、动量、能量是大学物理教学最基本且重要的内容.在牛顿力学中,如果已知初始条件,对于有序系统可以预测其未来的运动状态,牛顿力学在天文学上的处理是最成功的.本文基于万有引力定律和动量定理,借助计算机软件VPython模拟天体的运动过程,例如卫星、月球绕地球的运动,火星绕太阳的运动,卫星绕双星系统的运动,直观地显示了天体运动轨迹,使天体运动过程实现了可视化.教学实践表明基于VPython的天体轨道运动模拟与可视化,可以使学生更好地理解并灵活运用牛顿运动定律和动量定理,是对经典物理教学内容的有益补充.  相似文献   

16.
恒星大气物理参量(有效温度、表面重力、化学丰度)是导致恒星光谱差异的主要因素。恒星大气物理参量的自动测量是LAMOST等大规模巡天望远镜所产生的海量天体光谱数据自动处理中一个重要研究内容。文章采用两种非线性核回归方法对低分辨率恒星光谱进行3个物理参量的自动估计:核最小二乘回归(KLSR),核PCA回归(KPCR)。实验表明:(1)KLSR与KPCR可以实现光谱到表面有效温度和表面重力的回归,但是KLSR对噪声敏感,KPCR鲁棒性好于前者;(2)对于温度参数估计,两种算法具有相近的估计效果;对于表面重力和化学丰度估计,KPCR优于KLSR和非参数回归方法;(3)KLSR与KPCR方法实现容易,模型的训练速度快,运算复杂度小,适用于恒星光谱物理参量的自动测量。  相似文献   

17.
在赫罗图中,M巨星位于红巨星的顶端,是由类太阳的主序星逐渐演化而成的最明亮的一类恒星。M巨星的研究对于理解银河系,特别是银河系晕的性质至关重要。中低分辨率的M巨星光谱,常因为特征不显著、噪声影响等因素而与M矮星的光谱混在一起,不易区分。现有研究一般利用CaH2+CaH3 vs. TiO5分子谱指数初步筛选M巨星光谱候选体,再通过人眼检查确认。但这种方法仅利用了三个巨星相关的分子带指数,没有利用识别M巨星的其他光谱特征,可能会由于噪声对指数的污染而导致分类错误。而且,人眼检查数量众多的光谱不仅耗时而且检查质量依赖于人的经验,可靠性无法得到保证。LAMOST望远镜自2011年开始先导巡天到2017年6月,已经发布了900多万天体的光谱,最新释放的光谱数据DR5包含了52万的M型星光谱数据,需要采用自动、准确、有效的方法来区分其中不同光度级的M子样本。本研究利用集成树模型分类M巨星和M矮星光谱,分别采用随机森林、GBDT、XGBoost和LightGBM算法,构建区分M巨星和M矮星的光度分类器。四种分类器的测试准确率分别达到97.23%,98%,98.05%和98.32%。实验表明LightGBM模型比其他三种集成树模型准确率更高,训练时间更少,分类效率更高。对分类器模型获取到的重要特征分析的结果表明,集成树算法有效提取并表达了用于区分M巨星和M矮星的结构性特征,模型提取到的重要特征不仅包括原子线或分子带吸收的波长位置,还包含了它们相邻的伪连续谱,这与传统上计算指数所需要特征波长和伪连续谱是一致的。相比于传统M巨星和M矮星分类方法,集成树模型能够采用光谱中的多个重要特征组合进行分类,避免仅依赖某一种特征易受噪声影响而得出错误的分类结果。研究结果表明集成树算法在巨星识别过程中具有显著优势,完全可以替代传统上只利用CaH和TiO指数的巨星光谱判别方法。基于集成树模型对M型星光谱的分类研究,为LAMOST高效、准确地处理海量天体光谱提供了有效的方法。随着LAMOST巡天项目不断开展,积累的M巨星和M矮星样本将为研究银河系的结构和演化提供重要的数据基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号