首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 46 毫秒
1.
恒星光谱数据的自动识别与分类是现代巡天望远镜所产生的海量光谱数据处理的一项重要研究内容。针对流量未定标的低分辨率恒星光谱设计了一种有效的自动分类方案,实现恒星光谱的MK分类:光谱型及其次型分类,光度型分类。该方案由三部分实现:(1)连续谱归一化:基于小波技术提取低频信号逼近连续谱的方法;(2)七种光谱型及其次型的分类通过非参数回归方法实现。(3)光度型分类通过基于最近邻的χ2方法实现。实验结果表明该方案能够有效实现恒星光谱的MK分类,光谱型及其次型的分类精度为3.2个光谱次型,Ⅰ-Ⅴ光度型的正确识别率为60%, 次优统计率为78%。该方案训练速度快,方法实现容易,适用于海量恒星光谱自动分类处理系统。  相似文献   

2.
我国大科学工程项目LAMOST巡天计划每观测夜能获取多达数万条天体光谱数据,天文学家通过对天体光谱的分析观察可以获取有效的天文信息用于天文学或天体物理学的研究。而针对海量数据,寻找自动方法分析天体光谱并进行天体各种物理参数的测量就具有重要研究意义和价值。这一课题也吸引了许多学者进行研究,但目前所尝试的算法和相应结果仍然需要进一步改进,针对这一需求深入研究了核岭回归(KRR)方法在恒星大气物理参数(包括有效温度、表面重力和金属丰度)自动测量方面的应用,特别是在我国大科学工程项目LAMOST所释放光谱数据上的应用。核岭回归是岭回归算法的进一步发展,而岭回归是最小二乘方法的一种变形,其具有解决高维多重共线性问题的能力。所以KRR方法适合于处理高维的天体光谱信息,从LAMOST的第五期释放数据中随机选择了2万条被识别为恒星的光谱数据用于实验测试,该数据既包含低信噪比数据,也包含高信噪比数据(g,r,i波段平均信噪比最低至6.7,最高到793)。首先,本文对光谱进行预处理,包括三个步骤:(1)利用小波变换对光谱数据进行去噪处理;(2)因为LAMOST采用的是后期修正的流量定标设计,所以还通过流量归一化来避免部分光谱流量值不准确的问题;(3)由于每条光谱维数高达数千维,利用主成分分析方法(PCA)对光谱进行了降维。然后,利用KRR方法建立了光谱数据和标准化后的三大参数值之间的回归模型。最后,通过设计进行不同的组合实验对KRR算法模型进行了测试分析,并与经典算法支持向量回归(SVR)进行了对比。综合所有实验结果显示KRR方法对应的有效温度、表面重力和金属丰度的测试平均绝对误差分别为82.9897 K,0.1858 dex和0.1211 dex,优于SVR的144.2308 K,0.1886 dex和0.1246 dex。特别是KRR在温度测试结果上有较大优势,由此表明KRR方法能够有效地应用于天体光谱特别是恒星光谱参数的自动测量处理中。  相似文献   

3.
频繁模式是频繁出现在数据集中的模式,在数据挖掘中起着非常重要的作用。针对恒星光谱分类任务,在频繁模式的基础上,提出一种基于分类模式树的恒星光谱分类规则挖掘方法。首先根据数据库中恒星光谱各属性出现的频率不同,其在分类中的重要程度也不同的特征,提出一种新的树型结构——分类模式树,给出了相关概念及其构造方法SSCPTC,然后,将恒星光谱的特征信息映射到分类模式树上,通过采用自顶向下和自底向上两种模式相结合的方法对分类模式树进行遍历,实现分类规则的提取,同时引入模式有用度的概念来调整分类规则的数量、提高分类模式树的构造效率;最后采用国家天文台提供的SDSS恒星光谱作为实验数据,验证了该方法的正确性,而且具有较高的分类正确率。  相似文献   

4.
恒星光谱自动分类是研究恒星光谱的基础内容,快速、准确自动识别、分类恒星光谱可提高搜寻特殊天体速度,对天文学研究有重大意义。目前我国大型巡天项目LAMOST每年发布数百万条光谱数据,对海量恒星光谱进行快速、准确自动识别与分类研究已成为天文学大数据分析与处理领域的研究热点之一。针对恒星光谱自动分类问题,提出一种基于卷积神经网络(CNN)的K和F型恒星光谱分类方法,并与支持向量机(SVM)、误差反向传播算法(BP)对比,采用交叉验证方法验证分类器性能。与传统方法相比CNN具有权值共享,减少模型学习参数;可直接对训练数据自动进行特征提取等优点。实验采用Tensorflow深度学习框架,Python3.5编程环境。K和F恒星光谱数据集采用国家天文台提供的LAMOST DR3数据。截取每条光谱波长范围为3 500~7 500 部分,对光谱均匀采样生成数据集样本,采用min-max归一化方法对数据集样本进行归一化处理。CNN结构包括:输入层,卷积层C1,池化层S1,卷积层C2,池化层S2,卷积层C3,池化层S3,全连接层,输出层。输入层为一批K和F型恒星光谱相同的3 700个波长点处流量值。C1层设有10个大小为1×3步长为1的卷积核。S1层采用最大池化方法,采样窗口大小为1×2,无重叠采样,生成10张特征图,与C1层特征图数量相同,大小为C1层特征图的二分之一。C2层设有20个大小为1×2步长为1的卷积核,输出20张特征图。S2层对C2层20张特征图下采样输出20张特征图。C3层设有30个大小为1×3步长为1的卷积核,输出30张特征图。S3层对C3层30张特征图下采样输出30张特征图。全连接层神经元个数设置为50,每个神经元都与S3层的所有神经元连接。输出层神经元个数设置为2,输出分类结果。卷积层激活函数采用ReLU函数,输出层激活函数采用softmax函数。对比算法SVM类型为C-SVC,核函数采用径向基函数,BP算法设有3个隐藏层,每个隐藏层设有20,40和20个神经元。数据集分为训练数据和测试数据,将训练数据的40%,60%,80%和100%作为5个训练集,测试数据作为测试集。分别将5个训练集放入模型中训练,共迭代8 000次,每次训练好的模型用测试集进行验证。对比实验采用100%的训练数据作为训练集,测试数据作为测试集。采用精确率、召回率、F-score、准确率四个评价指标评价模型性能,对实验结果进行详细分析。分析结果表明CNN算法可对K和F型恒星光谱快速自动分类和筛选,训练集数据量越大,模型泛化能力越强,分类准确率越高。对比实验结果表明采用CNN算法对K和F型恒星光谱自动分类较传统机器学习SVM和BP算法自动分类准确率更高。  相似文献   

5.
基于线指数线性回归的恒星光谱大气物理参数测量   总被引:2,自引:0,他引:2  
利用Lick线指数,根据光谱的海量特点,从统计回归的角度出发,通过线性回归的方法来设计大气物理参数测量的高效算法。线性回归通过选择最佳的线指数组合及回归类型的选择来使其达到最佳的回归效果。因为得到的是公式性的回归模型,所以使得其应用于新的数据时计算速度可以很快,且清晰明了,便于分析处理,这是其他方法所达不到的。实验结果证明,通过线指数回归的方法来进行大气物理参数的测量是可行的。  相似文献   

6.
7.
数据挖掘被广泛应用于恒星光谱分类。为了提高传统光谱分类方法性能,提出熵学习机(Entropy-based Learning Machine, ELM)。在该方法中,熵用来刻画分类的不确定性。为了得到理想的分类结果,分类的不确定性应最小,基于此,可得ELM的最优化问题。ELM在处理二分类问题和稀有光谱发现等方面具有一定优势。SDSS中K型、F型、G型恒星光谱数据集上的比较实验表明:ELM在进行恒星光谱分类时,其分类性能优于k近邻(k Nearest Neighbor)和支持向量机(Support Vector Machine)等传统分类方法。  相似文献   

8.
一种基于约束概念格的恒星光谱数据自动分类方法   总被引:1,自引:0,他引:1  
概念格是数据分析与知识提取的一种有效形式化工具,约束概念格是一种新的概念格结构,具有构造的时空复杂性低,所提取知识的实用性和针对性强等特点。针对海量恒星光谱自动分类任务,依据约束概念格结点外延与训练样本数据集等价划分之间的关系,通过引入外延支持度和划分支持度的概念,提出了一种基于约束概念格的恒星光谱数据分类规则挖掘方法,并采用SDSS恒星光谱数据集,实验验证了由该方法所提取出的分类规则具有较高的分类效率和分类正确率,从而为海量的恒星光谱数据自动分类提供了一种有效方法。  相似文献   

9.
天体光谱处理中的一项基本任务是对大量的恒星光谱进行自动分类。到目前为止,恒星光谱的分类工作多是基于一维光谱数据。该研究打破传统的天体光谱数据处理流程,提出了基于二维恒星光谱分类的方法。在LAMOST(the large sky area multi-object fiber spectroscopic telescope)的数据处理流程中,所有的一维光谱都是由二维光谱抽谱、合并得来。二维光谱是由光谱仪产生的图像,包括蓝端图像和红端图像。基于LAMOST二维光谱数据,提出了特征融合卷积神经网络(FFCNN)分类模型,用于二维恒星光谱的分类。该模型是一个有监督的算法,通过两个CNN模型分别提取蓝端图像和红端图像的特征,然后将二者进行融合得到新的特征,再利用CNN对新特征进行分类。所使用的数据全部来源于LAMOST,我们在LMOST DR7中随机选择了一批源,然后获得了它们的二维光谱。一共有14 840根F,G和K型恒星的二维光谱用于FFCNN模型的训练,其中包括7 420根蓝端光谱和7 420根红端光谱。由于三类恒星光谱的数量并不均衡,在训练的过程中分别为每类恒星光谱设置了不同权重,防止模型出现分类失衡现象。同时,为了加快模型收敛,对二维光谱数据采用Z-score归一化处理。此外,为了充分利用所有样本,提高模型的可靠度,采用五折交叉验证的方法验证模型。3 710根二维光谱用作测试集,使用准确率、精确率、召回率和F1-score来对FFCNN模型的性能进行评价。实验结果显示,F,G和K型恒星的精确率分别达到87.6%,79.2%和88.5%,而且它们超过了一维光谱分类的结果。实验结果证明基于FFCNN的二维恒星光谱分类是一种有效的方法,它也为恒星光谱的处理提供了新的思路和方法。  相似文献   

10.
为了实现固态发酵过程状态的快速监测,以饲料蛋白固态发酵为实验对象,开展了基于近红外光谱分析技术的饲料蛋白固态发酵过程状态定性识别研究。首先利用Antaris Ⅱ型傅里叶变换近红外光谱仪采集140个固态发酵物样本的近红外光谱,并采用标准正态变换(SNV)光谱预处理方法对获得的原始光谱进行预处理;其次,采用谱回归判别分析(SRDA)法对预处理后的近红外光谱进行特征提取;最后,采用最近邻(NN)分类算法作为弱分类器建立固态发酵过程状态识别模型,并对测试集样本进行识别。结果显示,与利用主成分分析(PCA)法和线性判别分析(LDA)法提取的光谱特征建立的识别模型结果相比较,SRDA-NN识别模型获得的结果最佳,在测试集中的正确识别率达到94.28%;为了进一步提高识别模型的准确率,将自适应提升法(Adaboost)与SRDA-NN方法结合,提出了Adaboost-SRDA-NN集成学习算法来建立饲料蛋白固态发酵过程状态的在线监测模型。通过Adaboost算法提升后的SRDA-NN模型预测性能得到了进一步增强,Adaboost-SRDA-NN模型在测试集中的正确识别率达到100%。试验结果表明:在近红外光谱定性分析模型校正过程中,SRDA方法能有效地对近红外光谱数据进行特征提取,以实现维数约简;另外,Adaboost算法能很好地提升最终分类模型的预测精度。  相似文献   

11.
随着斯隆数字巡天项目(SDSS)、欧空局GAIA和我国大天区面积多目标光纤光谱天文望远镜(LAMOST)等项目的相继实施,拥有的恒星光谱数据量急速增加,由此导致基于光谱的恒星大气物理参数自动测量方法的研究成为天文光谱分析的重要课题之一[1]。探讨了恒星光谱特征提取的方法(Haar+lasso),其基本思想是首先使用Haar小波包对原始光谱进行多尺度分解,去除高频系数,选取低频系数作为光谱信息的描述;再采用lasso算法提取最优的特征; 最后将最优特征输入非参数回归模型中对恒星大气参数进行自动测量。Haar小波可以较好地去除原始光谱信号中的高频噪声,对全频谱数据进行降维。lasso算法可以进一步剔除数据冗余, 提取与物理参数相关度较强的特征。Haar+lasso方法提高了物理参数自动测量的准确性和运行效率。我们采用本文方案对SLOAN发布的40 000个恒星子样本的物理参数进行测量,三个物理参数的平均绝对误差为: log Teff: 0.007 1 dex,log g: 0.225 2 dex和[Fe/H]: 0.199 6 dex。同现有相关文献的实验结果相比,该方案可以获得更准确的物理参数。  相似文献   

12.
拼接异常是光谱在红蓝两端拼接区域表现出的光谱连续性差的一种现象。在LAMOST的光谱处理中,仪器的稳定性、观测条件以及获得的响应函数等问题都是造成拼接异常的原因。光谱拼接是否正常对于光谱发布等后续工作的质量有重要影响。提出一种拼接异常光谱的自动检测方法,有效地提高了工作效率。该研究可以为LAMOST数据提供一个自动的标记,来评价拼接质量,也可以为用户提供一个使用数据时的选择。该方法首先将待测光谱进行流量归一化、去除钠线等预处理,并将其分为红蓝两端;然后对红蓝两端分别进行拟合;最后对两条拟合曲线,选取一系列等波长间隔的点,计算在这些点处的流量差值,得到所有流量差值的均值,标准差,并且计算两条曲线积分面积的差值;基于上述统计量,提出了一个判断光谱是否异常及其异常程度的评价函数。大量的实验证明,该方法具有良好的拼接异常光谱检测效果。  相似文献   

13.
一种基于主分量分析的恒星光谱快速分类法   总被引:11,自引:2,他引:9  
恒星光谱分类是天体光谱自动识别中的重要组成部分。本文主要介绍一种实用的基于主分量分析(PCA)法对恒星光谱进行快速自动的分类方法。该方法在恒星的主分量空间中对样本点进行投影 ,并利用最近邻分类器进行分类 ,获得与恒星MK分类标准的光谱型基本一致的结果。本文的主要工作有 :(1 )利用PCA方法构造恒星光谱的特征矩阵 ,建构恒星的主分量空间 ;(2 )对恒星光谱进行主分量投影 ,对投影点进行光谱型和光度级的分类器设计 ,利用最近邻法分类 ,最后得出恒星的分类树。该分类法速度快 ,分类准确率较高 ,对目前许多大型光谱巡天计划所获得的大量光谱数据的处理有着重要的意义。  相似文献   

14.
基于Fisher判别分析的有监督特征提取和星系光谱分类   总被引:1,自引:2,他引:1  
随着天文观测技术的进步、数据获取能力的提高和大型光谱巡天计划的相继实施,光谱数据的自动处理研究越来越受到重视和关注。文章在分析了文献中光谱自动分类研究的特点和无监督特征提取方法所固有的一些不足的基础上指出了光谱有监督特征提取研究的必要性。并重点研究了Fisher判别分析(FDA)有监督特征提取方法在星系光谱自动分类中的应用。该方法: (1) 具有突出的维数约减能力; (2) 能有效地融合训练数据的类别信息,并按照分类能力提取特征。实验表明,将FDA方法用于某些星系细分类不仅明显地提高了分类器的速度,而且具有良好的分类性能。因此,对于较大的光谱识别系统更能体现出该方法的优越性。  相似文献   

15.
恒星光谱分类是天文技术与方法领域一直关注的热点问题之一。随着观测设备持续运行和不断改进,人类获得的光谱数量与日俱增。这些海量光谱为人工处理带来了极大挑战。鉴于此,研究人员开始关注数据挖掘算法,并尝试对这些光谱进行数据挖掘。近年来,神经网络、自组织映射、关联规则等数据挖掘方法广泛应用于恒星光谱分类。在这些方法中,支持向量机(SVM)以其强大的学习能力和高效的分类性能而备受推崇。SVM的基本思想是试图在两类样本之间找到一个最优分类面将两类分开。SVM在求解时,通过将其最优化问题转化为具有(QP)形式的凸问题,进而得到全局最优解。尽管该方法在实际应用中表现优良,但为了进一步提高其分类能力,有的学者提出双支持向量机(TSVM)。该方法通过构造两个非平行的分类面将两类分开,每一类靠近某个分类面,而远离另一个分类面。TSVM的计算效率较之传统SVM提高近4倍,因此,自TSVM提出后便受到研究人员的持续关注,并出现若干改进算法。在恒星光谱分类中,一般分类算法都是根据历史观测光谱来建立分类模型,其中最关键的是对光谱进行人工标注,这项工作极为繁琐,且容易犯错。如何利用已标记的光谱以及部分无标签的光谱来建立分类模型显得尤为重要。因此,提出带无标签数据的双支持向量机(TSVMUD)用以实现对恒星光谱智能分类的目的。该方法首先将光谱分为训练数据集和测试数据集两部分;然后,在训练集上进行学习,得到分类依据;最后利用分类依据对测试集上的光谱进行验证。继承了双支持向量机的优势,更重要的是,在训练集上学习分类模型过程中,不仅考虑有标记的训练样本,也考虑部分未标记的样本。一方面提高了学习效率,另一方面得到更优的分类模型。在SDSS DR8恒星光谱数据集上的比较实验表明,与支持向量机SVM、双支持向量机TSVM以及K近邻(KNN)等传统分类方法相比,带无标签数据的双支持向量机TSVMUD具有更优的分类能力。然而,该方法亦存在一定的局限性,其中一大难题是其无法处理海量光谱数据。该工作将借鉴海量数据随机采样思想,利用大数据处理技术,来对所提方法在大数据环境下的适应性展开进一步研究。  相似文献   

16.
针对光谱分类,提出了一种基于核技巧的覆盖算法——核覆盖算法。该算法将核技巧与覆盖算法相结合,并在特征空间中抽取支持向量。实验表明核覆盖算法在光谱分类中的精度与SVM相差不大,但是它只涉及距离的计算,不必象SVM那样求解二次规划问题,对于核宽的选择也不象SVM那样非常敏感。核覆盖算法与覆盖算法相比分类性能相当,它的优势在于引入的非线性映射Φ改变了样本集在特征空间中之间的距离关系,使得核覆盖算法得到的支持向量个数大大少于覆盖算法。  相似文献   

17.
支持向量机作为一种经典的分类方法被广泛应用于恒星光谱分类领域。该方法在实际应用中取得了较为理想的分类效果,但其面临无法解决多分类问题的挑战。在支持向量机的基础上,提出多类支持向量机,建立基于多类支持向量机的恒星光谱分类模型。该方法的最大优势是经过一次分类过程,可以确定多类样本的类属。SDSS DR8恒星光谱数据上的比较实验表明,本研究所提的方法较之已有多分类方法在分类性能上有一定的提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号