期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张枭罗阿理《光谱学与光谱分析》2019,39(10):3292-3296

恒星光谱分类是研究恒星的基础性工作之一,常用的光谱分类是基于20世纪70年代Morgan和Keenan建立起来的并逐步完善的MK分类系统。然而基于MK规则的交互式决策分类系统对处理海量天文光谱数据存在着一定的困难。目前光谱巡天一般采用的自动化分类则是模版匹配方法而忽略对谱线特征的测量。怎样自动、客观地提取海量光谱中的分类特征并应用这些特征进行分类可以对天体的物理化学性质的统计分析至关重要。针对此问题,通过机器学习和计算光谱的谱线指数结合的方法,提取光谱特征,并通过大数据分析定量地确定对光谱特征谱线的分类判据（数值化）,确定每一类光谱具有物理意义的特征谱线的强度分布。首先对LAMOST DR4恒星光谱测量其谱线指数作为输入,光谱的分类标记采用官方发布的分类结果。使用XGBoost算法进行自动分类及特征排序,从而获得已知或未知的对于分类决策最为敏感的谱线。首先,选取高信噪比（S/N>30）、被LAMOST标记为B,A,F和M的恒星光谱数据,总计约414万个。然后,对光谱数据计算谱线指数从而使其得到降维处理,过滤冗余信息。其次,将处理后的恒星光谱数据随机划分为训练集和测试集,通过适当调整算法参数,用训练集得到所需要的分类决策树模型,用测试集测试其稳定性和可用性,以防止出现过拟合,同时使用算法自带函数进行提取分类特征。最后,输出并整理实验中算法所得的决策树模型,并挑选其概率比较大的分支作为最终的决策树模型。通过实验,可以发现在固定参数下,XGBoost所得的模型有一定的自适应性,较少受数据集影响,总体准确率可达88.5%;同时其所输出的分类决策树与已知的特征较为吻合,而且可以获得基于大数据的、数值化的特征谱线对应分类的范围,为完善基于特征的分类提供定量的规则。相似文献

2.

一种基于Map/Reduce分布式计算的恒星光谱分类方法

潘景昌王杰姜斌罗阿理韦鹏郑强《光谱学与光谱分析》2016,36(8):2651-2654

天体光谱中蕴含着非常丰富的天体物理信息,通过对光谱的分析,可以得到天体的物理信息、化学成分以及天体的大气参数等。随着LAMOST和SDSS等大规模巡天望远镜的实施,将会产生海量的光谱数据,尤其是LAMOST正式运行后,每个观测夜产生大约2~4万条光谱数据。如此海量的光谱数据对光谱的快速有效的处理提出了更高的要求。恒星光谱的自动分类是光谱处理的一项基本内容,该研究主要工作就是研究海量恒星光谱的自动分类技术。Lick线指数是在天体光谱上定义的一组用以描述光谱中谱线强度的标准指数,代表光谱的物理特性,以每个线指数最突出的吸收线命名,是一个相对较宽的光谱特征。研究了基于Lick线指数的贝叶斯光谱分类方法,对F,G,K三类恒星进行分类。首先,计算各类光谱的Lick线指数作为特征向量,然后利用贝叶斯分类算法对三类恒星进行分类。针对海量光谱的情况,基于Hadoop平台实现了Lick线指数的计算,以及利用贝叶斯决策进行光谱分类的方法。利用Hadoop HDFS高吞吐率和高容错性的特点,结合Hadoop MapReduce编程模型的并行优势,提高了对大规模光谱数据的分析和处理效率。该研究的创新点为：(1) 以Lick线指数作为特征,基于贝叶斯算法实现恒星光谱分类;(2) 基于Hadoop MapReduce分布式计算框架实现Lick线指数的并行计算以及贝叶斯分类过程的并行化。相似文献

3.

基于t-SNE的恒星光谱降维与分类研究

《光谱学与光谱分析》2020,(9)

随着天文学的发展以及天文望远镜观测能力的提升,国内外许多大型巡天望远镜将产生PB级的恒星光谱数据。恒星光谱是来自恒星的电磁辐射,通常由连续谱与吸收线叠加而成,其差异源于恒星的有效温度、表面重力加速度以及元素的化学丰度等。恒星光谱自动分类是天文数据处理的一项重要研究内容,是研究恒星演化和参数测量的基础。海量的恒星光谱对分类方法提出了高效、准确的要求。传统的人工分类方法存在速度慢、精度低等缺点,已经无法满足海量恒星光谱特别是低信噪比恒星光谱自动分类的实际需要,机器学习算法目前已经被广泛地应用于恒星光谱分类。恒星光谱的一个显著特征是数据维度较高,降维不但可以实现特征提取,而且可以降低计算量,是光谱分类的首要任务。传统的线性降维方法如主成分分析仅依据方差对光谱进行降维,不同类型的光谱在投影到低维特征空间后会出现交叉现象,而流形学习能够产生优良的分类边界,很好地避开重叠,有利于后续的分类。针对光谱数据维度较高的特点,研究了光谱数据在高维空间内的分布以及流形学习对高维线性数据降维的原理,比较了t-SNE和主成分分析两种降维方法对光谱数据降维的效果,并使用基于属性值相关距离的改进的K近邻算法进行光谱分类,最终对实验结果进行了分析并使用多种机器学习分类器进行比较和验证。采用Python语言及Scikit-learn第三方库实现了算法,对SDSS的12 000条低信噪比的恒星光谱进行实验,最终实现了光谱数据的高精度自动处理和分类。实验结果表明,对于光谱数据的降维处理,基于流形学习的t-SNE方法能够在高维光谱数据中恢复低维流形结构,即找出高维空间中的低维流形,并解出与之对应的嵌入映射,在降维过程中最大程度地保留不同类别光谱样本之间的差异从而产生明显的分类边界。特征提取后,使用机器学习分类器能够在测试数据集上达到满意的分类准确率。所使用的方法也可以应用于其他的巡天望远镜产生的海量光谱的自动分类以及稀少天体的数据挖掘。相似文献

4.

基于线指数特征的海量恒星光谱聚类分析研究

王光沛潘景昌衣振萍韦鹏姜斌《光谱学与光谱分析》2016,36(8):2646-2650

聚类分析是数据挖掘中用以发现数据分布和隐含模式的一种重要算法,能简单有效地研究大样本、多参量和类别未知的光谱数据。以线指数作为光谱数据的特征值能够在尽可能多的保留光谱物理特征的同时,有效解决高维光谱数据聚类分析中运算复杂度较高的问题。本文提出了基于线指数特征的海量恒星光谱数据聚类分析的方法,提取恒星光谱中的Lick线指数作为海量巡天光谱数据的特征,使用k均值聚类算法完成对光谱数据的聚类,然后对聚类结果进行有效的分析。实验结果证明该方法能够快速有效地将具有相似物理特征的恒星光谱数据聚集到一起,该方法可以应用到巡天数据的研究中。相似文献

5.

A型恒星光谱线指数岭回归有效温度的预测分析

薛仁政陈淑鑫黄宏本《光谱学与光谱分析》2019,39(8):2624-2629

天文光谱线指数数据能够较好地保留着恒星的物理特征信息,为此借助线指数特征数据构建多参数模型,有利于更好地回归分析数据的共变关系及谱线的内在规律。世界上光谱获取率最高的施密特天文望远镜LAMOST发布的观测光谱都已经过标记,利用天文可视化工具分析这些标记的恒星光谱线指数会产生预测因子自相关,多元线性回归时因变量存在共线性,导致方差较大、得到最小二乘回归系数不稳定,虽不影响使用回归的有效性,但较难从回归方程中得到独立预测因子的评估系数。利用LAMOST巡天光谱数据中A型恒星Lick线指数为数据源,选取有效温度T_eff为7 000～8 500 K,取信噪比大于50的光谱特征值实现回归分析恒星参数T_eff值,经箱线图呈现DR5星表中,A型光谱86 097条具备T_eff值大样本光谱数据的整体分布,统计分析26种线指数的特征值后,选取分布相似且带宽为12 Å的kp12,halpha12和hgamma12字段,减少解释线指数变量的数目,优化冗余变量方差膨胀因子（VIF）系数。实验选取两两变量间观测数据集,局部拟合回归散点、同样的数据源使用散点图的总体轮廓生成高密度散点图,利用色差透明性突出显示数据密集区域。结果表明多元线性回归和岭回归算法都能从低分辨率光谱中确定A型恒星的有效温度,但经过共线性数据分析有偏估计实验,使用岭回归分析寻找最佳模型,能更准确地确定恒星有效温度,进而得到预测A型恒星有效温度及谱线回归特性。相似文献

6.

一种基于约束概念格的恒星光谱数据自动分类方法 总被引：1，自引：0，他引：1

张继福马洋《光谱学与光谱分析》2010,30(2):559-562

概念格是数据分析与知识提取的一种有效形式化工具,约束概念格是一种新的概念格结构,具有构造的时空复杂性低,所提取知识的实用性和针对性强等特点。针对海量恒星光谱自动分类任务,依据约束概念格结点外延与训练样本数据集等价划分之间的关系,通过引入外延支持度和划分支持度的概念,提出了一种基于约束概念格的恒星光谱数据分类规则挖掘方法,并采用SDSS恒星光谱数据集,实验验证了由该方法所提取出的分类规则具有较高的分类效率和分类正确率,从而为海量的恒星光谱数据自动分类提供了一种有效方法。相似文献

7.

基于DBN,SVM和BP神经网络的光谱分类比较

李俊峰汪月乐胡升何慧灵《光谱学与光谱分析》2016,(10):3261-3264

恒星的分类对了解恒星和星系形成与演化历史具有重要的研究价值。面对大型巡天计划及由此产生的海量数据,如何迅速准确地将天体自动分类显得尤为重要。通过对SDSS DR9的恒星光谱数据进行深度置信神经网络(DBN)、神经网络和支持向量机(SVM)等算法分类的对比,分析三种自动光谱分类方法在恒星分类上的适用性。首先利用上述三种方法对K,F恒星进行识别分类,然后再分别对K1,K3和K5次型和F2,F5,F9次型识别,最后基于SVM支持向量机的二次分类模型,利用K次型的数据,构建剔除不属于K次型的模型。结果表明:深度置信网络对K,F型恒星分类效果较好,但是对K,F次型的分类效果不佳;SVM支持向量机在K,F型恒星分类以及相应的次型分类都具有较好的识别率,对K,F型分类效果要好于K,F次型的分类效果;BP神经网络对K,F型恒星以及其次型的识别一般;在剔除不属于K次型实验中,剔除率高达100%,可知SVM能够对未知的光谱数据进行筛选与分类。相似文献

8.

线指数特征空间内恒星光谱离群数据挖掘与分析

王光沛潘景昌衣振萍韦鹏姜斌《光谱学与光谱分析》2016,36(10):3364-3368

大规模光谱巡天将产生海量的光谱数据,为搜寻一些奇异甚至于未知类型的光谱提供了机会,对这些特殊天体的研究有助于揭示宇宙的演变规律和生命起源,巡天数据的离群数据挖掘有助于这些特殊的光谱的发现。利用线指数对光谱数据进行降维能够在尽可能多的保留光谱物理特征的同时,有效解决高维光谱数据聚类分析中运算复杂度较高的问题。提出了基于线指数特征的海量恒星光谱离群数据挖掘及分析的方法,以恒星光谱的Lick线指数作为光谱数据的特征,利用聚类搜寻离群数据的方法在海量光谱巡天数据搜寻离群数据,以此为基础并给出线指数特征空间内离群光谱数据的分析方法。实验结果证明：(1)以线指数作为光谱的特征值能快速的完成对高维光谱数据的离群数据挖掘,可以解决高维光谱数据运算复杂度高的问题;(2)该方法是在聚类结果上进行的离群数据挖掘,能够有效的挖掘出数量较少的发射线恒星、晚M型恒星、极贫金属星、缺失数据光谱等数据;(3)线指数特征空间的离群数据挖掘可以得到线指数特征空间内特殊恒星的发现规则。本文所提出的基于线指数特征的离群数据挖掘及分析方法可以应用到巡天数据的相关研究中。相似文献

9.

基于卷积神经网络的恒星光谱自动分类方法

石超君邱波周亚同段福庆《光谱学与光谱分析》2019,39(4):1312-1316

恒星光谱自动分类是研究恒星光谱的基础内容,快速、准确自动识别、分类恒星光谱可提高搜寻特殊天体速度,对天文学研究有重大意义。目前我国大型巡天项目LAMOST每年发布数百万条光谱数据,对海量恒星光谱进行快速、准确自动识别与分类研究已成为天文学大数据分析与处理领域的研究热点之一。针对恒星光谱自动分类问题,提出一种基于卷积神经网络(CNN)的K和F型恒星光谱分类方法,并与支持向量机(SVM)、误差反向传播算法(BP)对比,采用交叉验证方法验证分类器性能。与传统方法相比CNN具有权值共享,减少模型学习参数;可直接对训练数据自动进行特征提取等优点。实验采用Tensorflow深度学习框架,Python3.5编程环境。K和F恒星光谱数据集采用国家天文台提供的LAMOST DR3数据。截取每条光谱波长范围为3 500~7 500 部分,对光谱均匀采样生成数据集样本,采用min-max归一化方法对数据集样本进行归一化处理。CNN结构包括：输入层,卷积层C1,池化层S1,卷积层C2,池化层S2,卷积层C3,池化层S3,全连接层,输出层。输入层为一批K和F型恒星光谱相同的3 700个波长点处流量值。C1层设有10个大小为1×3步长为1的卷积核。S1层采用最大池化方法,采样窗口大小为1×2,无重叠采样,生成10张特征图,与C1层特征图数量相同,大小为C1层特征图的二分之一。C2层设有20个大小为1×2步长为1的卷积核,输出20张特征图。S2层对C2层20张特征图下采样输出20张特征图。C3层设有30个大小为1×3步长为1的卷积核,输出30张特征图。S3层对C3层30张特征图下采样输出30张特征图。全连接层神经元个数设置为50,每个神经元都与S3层的所有神经元连接。输出层神经元个数设置为2,输出分类结果。卷积层激活函数采用ReLU函数,输出层激活函数采用softmax函数。对比算法SVM类型为C-SVC,核函数采用径向基函数,BP算法设有3个隐藏层,每个隐藏层设有20,40和20个神经元。数据集分为训练数据和测试数据,将训练数据的40%,60%,80%和100%作为5个训练集,测试数据作为测试集。分别将5个训练集放入模型中训练,共迭代8 000次,每次训练好的模型用测试集进行验证。对比实验采用100%的训练数据作为训练集,测试数据作为测试集。采用精确率、召回率、F-score、准确率四个评价指标评价模型性能,对实验结果进行详细分析。分析结果表明CNN算法可对K和F型恒星光谱快速自动分类和筛选,训练集数据量越大,模型泛化能力越强,分类准确率越高。对比实验结果表明采用CNN算法对K和F型恒星光谱自动分类较传统机器学习SVM和BP算法自动分类准确率更高。相似文献

10.

一种晚型天体光谱离群数据挖掘系统

蔡江辉杨海峰赵旭俊张继福《光谱学与光谱分析》2014,34(5):1421-1424

探索海量的M型恒星中具有磁活动、巨星等较特殊、稀有的天体,对于后续观测、银河系结构、演化等科学研究具有重要的意义,针对M型恒星光谱特征线出现在子空间中的局部偏离,设计并实现了晚型恒星离群数据挖掘系统。首先采用稀疏因子和稀疏度系数度量样本在属性空间上的分布特征,并在此基础上对M型恒星光谱特征线进行离散化、降维等预处理,获得光谱子空间;然后采用微粒群算法搜索离群子空间,并证认子空间内光谱是否离群;此外,选择SDSS M型光谱特征线指数集为样本,实验分析了稀疏因子和稀疏度系数的设置对离群结果的影响,并将离群挖掘结果与SDSS提供光谱型等参数对照,表明利用该系统实现晚型恒星光谱特征线局部离群数据挖掘是可行并有价值的。相似文献

11.

基于非参数回归与最近邻方法的恒星光谱自动分类

张健楠赵永恒刘蓉《光谱学与光谱分析》2009,29(12):3424-3428

恒星光谱数据的自动识别与分类是现代巡天望远镜所产生的海量光谱数据处理的一项重要研究内容。针对流量未定标的低分辨率恒星光谱设计了一种有效的自动分类方案,实现恒星光谱的MK分类：光谱型及其次型分类,光度型分类。该方案由三部分实现：(1)连续谱归一化：基于小波技术提取低频信号逼近连续谱的方法;(2)七种光谱型及其次型的分类通过非参数回归方法实现。(3)光度型分类通过基于最近邻的χ2方法实现。实验结果表明该方案能够有效实现恒星光谱的MK分类,光谱型及其次型的分类精度为3.2个光谱次型,Ⅰ-Ⅴ光度型的正确识别率为60%, 次优统计率为78％。该方案训练速度快,方法实现容易,适用于海量恒星光谱自动分类处理系统。相似文献

12.

早M型矮恒星光谱聚类方法与分析

刘杰潘景昌吴明磊刘聪韦鹏衣振萍刘猛《光谱学与光谱分析》2017,37(12):3904-3907

大规模光谱巡天项目如LAMOST等产生了海量极具研究价值的观测数据,如何对此数量级的数据进行有效的分析是当前的一个研究热点。聚类算法是一类无监督的机器学习算法,可以在不依赖于领域知识的情况下对数据进行处理,发现其中的规律与结构。恒星光谱聚类是天文数据处理中一项非常重要的工作,主要对海量光谱巡天数据按照其物理及化学性质分类。针对LAMOST巡天中的早M型矮恒星的光谱数据,使用多种聚类算法如K-Means,Bisecting K-Means和OPTICS算法做了聚类分析,研究不同聚类算法在早M型恒星数据的表现。聚类算法在一定程度依赖于其使用的距离度量算法,同时研究了欧氏距离、曼哈顿距离、残差分布距离和上述三种聚类算法搭配下的表现。实验结果表明：(1)聚类算法可以很好地辅助分析早M型矮恒星的光谱数据,聚类产生的簇心数据和MK分类吻合得非常好。(2)三种不同聚类算法表现不尽相同,Bisecting K-Means在恒星光谱细分类方面更有优势。(3) 在聚类的同时也会产生一些数量较少的簇,从这些簇中可以发现一些稀有天体候选体,相对而言OPTICS适合用来寻找稀有天体候选体。相似文献

13.

恒星低质量光谱的连续谱拟合方法

吴明磊潘景昌衣振萍韦鹏《光谱学与光谱分析》2018,38(3):963-967

恒星的连续谱是由于黑体辐射导致的光辐射强度随波长(频率)连续光滑变化的光谱。每条观测到的光谱数据中都会包含连续谱、谱线和噪声。恒星的分类主要是依据光谱的谱线、连续谱的相对强度以及光谱的其他特征。恒星连续谱的分布以及谱线的轮廓是由恒星大气内的物理因素决定的,也可以根据连续谱及谱线对恒星大气的物理参数进行估计。因而处理光谱的主要问题就是提取连续谱,并且通过归一化进行谱线的提取。恒星连续谱提取的算法主要有多项式逼近、中值滤波、形态滤波以及小波滤波等,但是这些方法对于低质量光谱处理的鲁棒性不是很好,因此有必要研究一种新的算法对低质量光谱的连续谱进行提取。在仔细分析恒星低质量连续谱的基础上,提出一种基于蒙特卡罗方法的低质量恒星连续谱拟合方法。该方法对恒星光谱筛选过程中不在范围内的点利用蒙特卡罗均匀分布进行自动插值,让每一个波长都对应一个流量点,然后对这些流量点进行低阶多项式迭代拟合,从而得到连续谱。为了验证算法对不同信噪比的低质量光谱连续谱提取的鲁棒性,利用不同的信噪比在原始光谱中加入不同的高斯白噪声对低质量光谱进行模拟。结果表明蒙特卡罗算法对不同信噪比的低质量光谱的拟合具有较高的精度与较强的鲁棒性。相似文献

14.

基于径向基神经网络的白矮主序双星自动分类

王文玉郭格霖姜斌王丽《光谱学与光谱分析》2016,36(10):3360-3363

白矮主序双星的光谱特征是决定其类型的关键因素,如何有效提取恒星光谱的特征是亟待解决的问题。提出一种新的方法,通过构建模型捕获恒星光谱数据的特征,对SDSS-DR10海量光谱进行自动分类。径向基神经网络作为一种有效的计算模型,在数值逼近和目标分类上均有较好的表现效果,但由于目前神经网络超参数的确定大多数依赖于实验经验,很大程度上制约了算法能力的发挥。在分析白矮主序双星光谱数据的高维分布特征的基础上,提出一种基于径向基神经网络的白矮主序双星自动分类模型,并以白矮主序双星的光谱特征为导向,针对恒星光谱提出了中心准则和宽度准则以确定神经网络的超参数,大幅度提高了模型的准确度。实验对分类模型进行数值训练并使用训练的模型对SDSS-DR10光谱数据进行白矮主序双星的自动分类,共发现4 631个白矮主序双星,通过Simbad,NED和Google交叉验证后发现其中有25个是未予以收录的新候选体。实验结果验证了该模型在大规模白矮主序双星自动分类任务中的有效性,新发现的白矮主序双星也为特殊天体的进一步研究补充了有效数据。相似文献

15.

利用融合数据分布特征的模糊双支持向量机对恒星光谱分类

刘忠宝秦振涛罗学刚周方晓张靖《光谱学与光谱分析》2019,39(4):1307-1311

恒星光谱分类是天文学研究的一个热点问题。随着观测光谱数量的急剧增加,传统的人工分类无法满足实际需求,急需利用自动化技术,特别是数据挖掘算法来对恒星光谱进行自动分类。关联规则、神经网络、自组织网络等数据挖掘算法已广泛应用于恒星光谱分类。其中,支持向量机（SVM）分类能力突出,被广泛应用于恒星光谱分类。该方法试图在两类样本之间找到一个最优分类面将两类分开。该方法具有较高的时间复杂度,计算效率有限。双支持向量机（TWSVM）的出现有效地解决了SVM面临的效率问题。该方法通过构造两个非平行的分类面将两类分开,每一类靠近某个分类面,而远离另一个分类面。TWSVM的计算效率较之传统SVM提高近4倍,因此,自TWSVM提出后便受到研究人员的持续关注。但上述方法在分类决策时,一方面没有考虑数据的分布特征,另一方面较易受噪声点和奇异点的影响,分类效率难以显著提升。鉴于此,在双支持向量机的基础上,提出融合数据分布特征的模糊双支持向量机（TWSVM-SDP）。该方法引入线性判别分析（LDA）的类间离散度和类内离散度,用以表征光谱数据的分布性状;引入模糊隶属度函数用以降低噪声点和奇异点对分类结果的影响。在SDSS DR8恒星光谱数据集上的比较实验表明,与支持向量机SVM、双支持向量机TWSVM等传统分类方法相比,融合数据分布特征的模糊双支持向量机TWSVM-SDP具有更优的分类能力。该方法亦存在一定的局限性,其中一大难题是其无法处理海量光谱数据。接下来将利用大数据处理技术,来对所提方法在大数据环境下的适应性展开进一步研究。相似文献

16.

利用带无标签数据的双支持向量机对恒星光谱分类

刘忠宝雷宇飞宋文爱张静王杰屠良平《光谱学与光谱分析》2019,39(3):948-952

恒星光谱分类是天文技术与方法领域一直关注的热点问题之一。随着观测设备持续运行和不断改进,人类获得的光谱数量与日俱增。这些海量光谱为人工处理带来了极大挑战。鉴于此,研究人员开始关注数据挖掘算法,并尝试对这些光谱进行数据挖掘。近年来,神经网络、自组织映射、关联规则等数据挖掘方法广泛应用于恒星光谱分类。在这些方法中,支持向量机(SVM)以其强大的学习能力和高效的分类性能而备受推崇。SVM的基本思想是试图在两类样本之间找到一个最优分类面将两类分开。SVM在求解时,通过将其最优化问题转化为具有(QP)形式的凸问题,进而得到全局最优解。尽管该方法在实际应用中表现优良,但为了进一步提高其分类能力,有的学者提出双支持向量机(TSVM)。该方法通过构造两个非平行的分类面将两类分开,每一类靠近某个分类面,而远离另一个分类面。TSVM的计算效率较之传统SVM提高近4倍,因此,自TSVM提出后便受到研究人员的持续关注,并出现若干改进算法。在恒星光谱分类中,一般分类算法都是根据历史观测光谱来建立分类模型,其中最关键的是对光谱进行人工标注,这项工作极为繁琐,且容易犯错。如何利用已标记的光谱以及部分无标签的光谱来建立分类模型显得尤为重要。因此,提出带无标签数据的双支持向量机(TSVMUD)用以实现对恒星光谱智能分类的目的。该方法首先将光谱分为训练数据集和测试数据集两部分;然后,在训练集上进行学习,得到分类依据;最后利用分类依据对测试集上的光谱进行验证。继承了双支持向量机的优势,更重要的是,在训练集上学习分类模型过程中,不仅考虑有标记的训练样本,也考虑部分未标记的样本。一方面提高了学习效率,另一方面得到更优的分类模型。在SDSS DR8恒星光谱数据集上的比较实验表明,与支持向量机SVM、双支持向量机TSVM以及K近邻(KNN)等传统分类方法相比,带无标签数据的双支持向量机TSVMUD具有更优的分类能力。然而,该方法亦存在一定的局限性,其中一大难题是其无法处理海量光谱数据。该工作将借鉴海量数据随机采样思想,利用大数据处理技术,来对所提方法在大数据环境下的适应性展开进一步研究。相似文献

17.

LAMOST恒星分类模板间相似性度量分析

陈淑鑫孙伟民孔啸《光谱学与光谱分析》2018,38(6):1922-1925

随着获取和收集天文光谱大数据能力的与日俱增,合理利用计算科学技术正确地分析海量光谱的处理方法及结果统计。前述工作采用了欧氏距离分析判别LAMOST实测光谱与模板之间相似度的研究,研究恒星分类准确性取决于高质量的模板光谱,选取LAMOST光谱在用的分类软件中183个恒星模板光谱,分别利用欧氏距离和马氏距离方法得出A,F,G,K和M型恒星模板间的均值和最大值,完成每条谱线相互之间的相关性分析,找出相对距离较大的模板及形成原因。相似度度量可视化实验数据结果表明模板之间具有一定的区分度,通过马氏距离分析模板间相似性能更进一步辨识出相近模板之间的细微差别,具备较优良的判别效果,证实了LAMOST现有分类的各模板间距离较均匀,且分类结果较为准确。该研究可进一步优化在用光谱分类模板,提升LAMOST恒星分类模板库的精确度和可信度。相似文献

18.

马氏距离度量LAMOST早型星光谱的分类研究

陈淑鑫孙伟民宋轶晗《光谱学与光谱分析》2019,39(5):1618-1622

随着天文大数据不断积累,我国大天区多目标光纤光谱望远镜LAMOST已完成6年的大规模巡天观测,获得DR5数据集已达到900多万条光谱,其中含有观测比例较低的早型恒星光谱,具备重要的研究价值。利用准确的恒星分类模板库可提升恒星的分类精度与可靠性,由于LAMOST第一年的巡天光谱中并没有完整覆盖B型恒星包含的所有子类型,造成后续观测数据分类的子类型范围受限。依据LAMOST已发布DR5数据中B型恒星光谱为研究对象,选取ELODIE发布的B型恒星实测光谱模板库来检测LAMOST在用的分类光谱。首先完成ELODIE发布37条B型光谱模板的相关性分析,去掉相关性弱的三条光谱后,筛选出ELODIE 34条B型恒星实测模板作为中心,通过计算LAMOST DR5发布的绝大多数被标记为B6型（7 662条）和B9型（3 969条）实测光谱的马氏距离,经有监督聚类LAMOST早型恒星光谱数据,标记13个子类型在涵盖B2-B9子类的34条ELODIE光谱模板中的分布。经线性分析判别每条谱线子类型的类内距离,确保波长覆盖范围和分辨率与LAMOST数据完全一致,去掉距离数值偏差较大的数据,计算相应子类的平均谱线,得到LAMOST源于DR5观测数据早型B型恒星的13条子类型光谱分类模板,为后期完善模板提供较好的参考性。相似文献

19.

基于线指数的核偏最小二乘回归在恒星大气物理参数测量中的应用 总被引：1，自引：0，他引：1

王杰潘景昌谭鑫《光谱学与光谱分析》2014,34(3):833-837

恒星大气物理参数(有效温度、表面重力、化学丰度)的自动测量是天体光谱数据自动处理中的一项重要内容。由于光谱数据的高维性的特点,处理运算量非常大,对于光谱的实时分析及处理会造成延误。文章提出了一种基于Lick线指数,利用核偏最小二乘回归(KPLSR) 对恒星大气物理参数进行测量的方法。可以有效地减少运算量并可达到理想的准确率。首先计算Kurucz合成光谱的Lick线指数,利用核偏最小二乘回归方法建立Lick线指数与大气物理参数之间的核回归模型,并利用DR8实测光谱数据对得到的模型进行测试,将测试的结果与SEGUE SSPP提供的大气物理参数进行了对比,取得了比较好的效果。此外,为了检验噪声对参数测量的影响,本文还对Kurucz光谱分别加了信噪比为10, 20, 30, 40, 50, 70, 90, 120的高斯白噪声,对得到的不同信噪比的Kurucz数据进行了测试,实验结果表明,核回归模型对噪声比较敏感,光谱数据的信噪比越高,其大气物理参数的预测精度越高。提出的基于线指数建立核偏最小二乘回归模型的方法运算量小,训练速度快,适合用于恒星大气物理参数的测量。相似文献

20.

基于非参数回归与Adaboost的恒星光谱自动分类方法

刘蓉乔学军张健楠段福庆《光谱学与光谱分析》2017,37(5):1553-1557

通过对恒星光谱进行分析可以研究银河系的演化与结构等科学问题,光谱分类是恒星光谱分析的基本任务之一。提出了一种结合非参数回归与Adaboost对恒星光谱进行MK分类的方法,将恒星按光谱型和光度型进行分类,并识别其光谱型的次型。恒星光谱的光谱型及其次型代表了恒星的表面有效温度,而光度型则代表了恒星的发光强度。在同一种光谱型下,光度型反映了谱线形状细节的变化,因此光度型的分类必须在光谱型分类基础上进行。本文把光谱型的分类问题转化为对类别的回归问题,采用非参数回归方法进行恒星光谱型和光谱次型的分类;基于Adaboost方法组合一组K近邻分类器进行光度型分类,Adaboost将一组弱分类器加权组合产生一个强分类器,提升光度型的识别率。实验验证了所提出分类方法的有效性,光谱次型识别的精度达到0.22,光度型的分类正确率达到84%以上。实验还对比了两种KNN方法与Adaboost方法的光度型分类,结果表明,利用KNN方法对光度型分类精度低,而基于弱分类器KNN的Adaboost方法将识别率大幅提升。相似文献