共查询到16条相似文献,搜索用时 72 毫秒
1.
聚类分析是数据挖掘中用以发现数据分布和隐含模式的一种重要算法,能简单有效地研究大样本、多参量和类别未知的光谱数据。以线指数作为光谱数据的特征值能够在尽可能多的保留光谱物理特征的同时,有效解决高维光谱数据聚类分析中运算复杂度较高的问题。本文提出了基于线指数特征的海量恒星光谱数据聚类分析的方法,提取恒星光谱中的Lick线指数作为海量巡天光谱数据的特征,使用k均值聚类算法完成对光谱数据的聚类,然后对聚类结果进行有效的分析。实验结果证明该方法能够快速有效地将具有相似物理特征的恒星光谱数据聚集到一起,该方法可以应用到巡天数据的研究中。 相似文献
2.
大规模光谱巡天将产生海量的光谱数据,为搜寻一些奇异甚至于未知类型的光谱提供了机会,对这些特殊天体的研究有助于揭示宇宙的演变规律和生命起源,巡天数据的离群数据挖掘有助于这些特殊的光谱的发现。利用线指数对光谱数据进行降维能够在尽可能多的保留光谱物理特征的同时,有效解决高维光谱数据聚类分析中运算复杂度较高的问题。提出了基于线指数特征的海量恒星光谱离群数据挖掘及分析的方法,以恒星光谱的Lick线指数作为光谱数据的特征,利用聚类搜寻离群数据的方法在海量光谱巡天数据搜寻离群数据,以此为基础并给出线指数特征空间内离群光谱数据的分析方法。实验结果证明:(1)以线指数作为光谱的特征值能快速的完成对高维光谱数据的离群数据挖掘,可以解决高维光谱数据运算复杂度高的问题;(2)该方法是在聚类结果上进行的离群数据挖掘,能够有效的挖掘出数量较少的发射线恒星、晚M型恒星、极贫金属星、缺失数据光谱等数据;(3)线指数特征空间的离群数据挖掘可以得到线指数特征空间内特殊恒星的发现规则。本文所提出的基于线指数特征的离群数据挖掘及分析方法可以应用到巡天数据的相关研究中。 相似文献
3.
基于线指数线性回归的恒星光谱大气物理参数测量 总被引:2,自引:0,他引:2
利用Lick线指数,根据光谱的海量特点,从统计回归的角度出发,通过线性回归的方法来设计大气物理参数测量的高效算法。线性回归通过选择最佳的线指数组合及回归类型的选择来使其达到最佳的回归效果。因为得到的是公式性的回归模型,所以使得其应用于新的数据时计算速度可以很快,且清晰明了,便于分析处理,这是其他方法所达不到的。实验结果证明,通过线指数回归的方法来进行大气物理参数的测量是可行的。 相似文献
4.
5.
频繁模式是频繁出现在数据集中的模式,在数据挖掘中起着非常重要的作用。针对恒星光谱分类任务,在频繁模式的基础上,提出一种基于分类模式树的恒星光谱分类规则挖掘方法。首先根据数据库中恒星光谱各属性出现的频率不同,其在分类中的重要程度也不同的特征,提出一种新的树型结构——分类模式树,给出了相关概念及其构造方法SSCPTC,然后,将恒星光谱的特征信息映射到分类模式树上,通过采用自顶向下和自底向上两种模式相结合的方法对分类模式树进行遍历,实现分类规则的提取,同时引入模式有用度的概念来调整分类规则的数量、提高分类模式树的构造效率;最后采用国家天文台提供的SDSS恒星光谱作为实验数据,验证了该方法的正确性,而且具有较高的分类正确率。 相似文献
6.
一种基于约束概念格的恒星光谱数据自动分类方法 总被引:1,自引:0,他引:1
概念格是数据分析与知识提取的一种有效形式化工具,约束概念格是一种新的概念格结构,具有构造的时空复杂性低,所提取知识的实用性和针对性强等特点。针对海量恒星光谱自动分类任务,依据约束概念格结点外延与训练样本数据集等价划分之间的关系,通过引入外延支持度和划分支持度的概念,提出了一种基于约束概念格的恒星光谱数据分类规则挖掘方法,并采用SDSS恒星光谱数据集,实验验证了由该方法所提取出的分类规则具有较高的分类效率和分类正确率,从而为海量的恒星光谱数据自动分类提供了一种有效方法。 相似文献
7.
LIU Zhong-bao REN Juan-juan SONG Wen-ai ZHANG Jing KONG Xiao FU Li-zhen 《光谱学与光谱分析》2018,38(2):660-664
数据挖掘被广泛应用于恒星光谱分类。为了提高传统光谱分类方法性能,提出熵学习机(Entropy-based Learning Machine, ELM)。在该方法中,熵用来刻画分类的不确定性。为了得到理想的分类结果,分类的不确定性应最小,基于此,可得ELM的最优化问题。ELM在处理二分类问题和稀有光谱发现等方面具有一定优势。SDSS中K型、F型、G型恒星光谱数据集上的比较实验表明:ELM在进行恒星光谱分类时,其分类性能优于k近邻(k Nearest Neighbor)和支持向量机(Support Vector Machine)等传统分类方法。 相似文献
8.
恒星光谱分类是研究恒星的基础性工作之一,常用的光谱分类是基于20世纪70年代Morgan和Keenan建立起来的并逐步完善的MK分类系统。然而基于MK规则的交互式决策分类系统对处理海量天文光谱数据存在着一定的困难。目前光谱巡天一般采用的自动化分类则是模版匹配方法而忽略对谱线特征的测量。怎样自动、客观地提取海量光谱中的分类特征并应用这些特征进行分类可以对天体的物理化学性质的统计分析至关重要。针对此问题,通过机器学习和计算光谱的谱线指数结合的方法,提取光谱特征,并通过大数据分析定量地确定对光谱特征谱线的分类判据(数值化),确定每一类光谱具有物理意义的特征谱线的强度分布。首先对LAMOST DR4恒星光谱测量其谱线指数作为输入,光谱的分类标记采用官方发布的分类结果。使用XGBoost算法进行自动分类及特征排序,从而获得已知或未知的对于分类决策最为敏感的谱线。首先,选取高信噪比(S/N>30)、被LAMOST标记为B,A,F和M的恒星光谱数据,总计约414万个。然后,对光谱数据计算谱线指数从而使其得到降维处理,过滤冗余信息。其次,将处理后的恒星光谱数据随机划分为训练集和测试集,通过适当调整算法参数,用训练集得到所需要的分类决策树模型,用测试集测试其稳定性和可用性,以防止出现过拟合,同时使用算法自带函数进行提取分类特征。最后,输出并整理实验中算法所得的决策树模型,并挑选其概率比较大的分支作为最终的决策树模型。通过实验,可以发现在固定参数下,XGBoost所得的模型有一定的自适应性,较少受数据集影响,总体准确率可达88.5%;同时其所输出的分类决策树与已知的特征较为吻合,而且可以获得基于大数据的、数值化的特征谱线对应分类的范围,为完善基于特征的分类提供定量的规则。 相似文献
9.
恒星光谱自动分类是研究恒星光谱的基础内容,快速、准确自动识别、分类恒星光谱可提高搜寻特殊天体速度,对天文学研究有重大意义。目前我国大型巡天项目LAMOST每年发布数百万条光谱数据,对海量恒星光谱进行快速、准确自动识别与分类研究已成为天文学大数据分析与处理领域的研究热点之一。针对恒星光谱自动分类问题,提出一种基于卷积神经网络(CNN)的K和F型恒星光谱分类方法,并与支持向量机(SVM)、误差反向传播算法(BP)对比,采用交叉验证方法验证分类器性能。与传统方法相比CNN具有权值共享,减少模型学习参数;可直接对训练数据自动进行特征提取等优点。实验采用Tensorflow深度学习框架,Python3.5编程环境。K和F恒星光谱数据集采用国家天文台提供的LAMOST DR3数据。截取每条光谱波长范围为3 500~7 500 部分,对光谱均匀采样生成数据集样本,采用min-max归一化方法对数据集样本进行归一化处理。CNN结构包括:输入层,卷积层C1,池化层S1,卷积层C2,池化层S2,卷积层C3,池化层S3,全连接层,输出层。输入层为一批K和F型恒星光谱相同的3 700个波长点处流量值。C1层设有10个大小为1×3步长为1的卷积核。S1层采用最大池化方法,采样窗口大小为1×2,无重叠采样,生成10张特征图,与C1层特征图数量相同,大小为C1层特征图的二分之一。C2层设有20个大小为1×2步长为1的卷积核,输出20张特征图。S2层对C2层20张特征图下采样输出20张特征图。C3层设有30个大小为1×3步长为1的卷积核,输出30张特征图。S3层对C3层30张特征图下采样输出30张特征图。全连接层神经元个数设置为50,每个神经元都与S3层的所有神经元连接。输出层神经元个数设置为2,输出分类结果。卷积层激活函数采用ReLU函数,输出层激活函数采用softmax函数。对比算法SVM类型为C-SVC,核函数采用径向基函数,BP算法设有3个隐藏层,每个隐藏层设有20,40和20个神经元。数据集分为训练数据和测试数据,将训练数据的40%,60%,80%和100%作为5个训练集,测试数据作为测试集。分别将5个训练集放入模型中训练,共迭代8 000次,每次训练好的模型用测试集进行验证。对比实验采用100%的训练数据作为训练集,测试数据作为测试集。采用精确率、召回率、F-score、准确率四个评价指标评价模型性能,对实验结果进行详细分析。分析结果表明CNN算法可对K和F型恒星光谱快速自动分类和筛选,训练集数据量越大,模型泛化能力越强,分类准确率越高。对比实验结果表明采用CNN算法对K和F型恒星光谱自动分类较传统机器学习SVM和BP算法自动分类准确率更高。 相似文献
10.
通过人工神经网络的方法基于Lick线指数,来进行大气物理参数的测量,对Kurucz的合成光谱进行预处理以适应最后LAMOST光谱数据的要求,以Lick线指数与对应的大气物理参数为输入,用人工神经网络进行训练,得到训练模型通过DR8光谱数据进行测试,通过调整人工神经网络的相关参数来使实验效果达到最佳。结果证明,通过线指数人工神经网络的方法来进行大气物理参数的测量是可行的。 相似文献
11.
基于线指数的核偏最小二乘回归在恒星大气物理参数测量中的应用 总被引:1,自引:0,他引:1
恒星大气物理参数(有效温度、表面重力、化学丰度)的自动测量是天体光谱数据自动处理中的一项重要内容。由于光谱数据的高维性的特点,处理运算量非常大,对于光谱的实时分析及处理会造成延误。文章提出了一种基于Lick线指数,利用核偏最小二乘回归(KPLSR) 对恒星大气物理参数进行测量的方法。可以有效地减少运算量并可达到理想的准确率。首先计算Kurucz合成光谱的Lick线指数,利用核偏最小二乘回归方法建立Lick线指数与大气物理参数之间的核回归模型,并利用DR8实测光谱数据对得到的模型进行测试,将测试的结果与SEGUE SSPP提供的大气物理参数进行了对比,取得了比较好的效果。此外,为了检验噪声对参数测量的影响,本文还对Kurucz光谱分别加了信噪比为10, 20, 30, 40, 50, 70, 90, 120的高斯白噪声,对得到的不同信噪比的Kurucz数据进行了测试,实验结果表明,核回归模型对噪声比较敏感,光谱数据的信噪比越高,其大气物理参数的预测精度越高。提出的基于线指数建立核偏最小二乘回归模型的方法运算量小,训练速度快,适合用于恒星大气物理参数的测量。 相似文献
12.
一种基于主分量分析的恒星光谱快速分类法 总被引:11,自引:2,他引:9
恒星光谱分类是天体光谱自动识别中的重要组成部分。本文主要介绍一种实用的基于主分量分析(PCA)法对恒星光谱进行快速自动的分类方法。该方法在恒星的主分量空间中对样本点进行投影 ,并利用最近邻分类器进行分类 ,获得与恒星MK分类标准的光谱型基本一致的结果。本文的主要工作有 :(1 )利用PCA方法构造恒星光谱的特征矩阵 ,建构恒星的主分量空间 ;(2 )对恒星光谱进行主分量投影 ,对投影点进行光谱型和光度级的分类器设计 ,利用最近邻法分类 ,最后得出恒星的分类树。该分类法速度快 ,分类准确率较高 ,对目前许多大型光谱巡天计划所获得的大量光谱数据的处理有着重要的意义。 相似文献
13.
提出了一种对恒星光谱识别的新方法。 根据恒星光谱数据的特性,我们以支持向量机为核心技术构建光谱识别器。 由于恒星光谱数据通常含有较高的噪声,如果直接进行分类,识别率往往较低。 因此作者首先采用小波分析的方法对原始光谱数据进行降噪预处理,提取光谱的特征,然后馈送到支持向量机完成对光谱数据的最终识别。 利用实际光谱数据(Jacoby, 1984)对所提出的技术进行检测,实验结果表明使用这种小波分析结合支持向量机的技术的识别效果要优于使用支持向量机结合主分量分析降维技术的识别方法。 另外,作者还比较了支持向量机与传统甄别分析的分类性能,对实际及合成光谱进行实验的结果显示了支持向量机的识别正确率不但优于常见的5种甄别分析方法的识别率,而且有较强的泛化能力。 相似文献
14.
支持向量机作为一种经典的分类方法被广泛应用于恒星光谱分类领域。该方法在实际应用中取得了较为理想的分类效果,但其面临无法解决多分类问题的挑战。在支持向量机的基础上,提出多类支持向量机,建立基于多类支持向量机的恒星光谱分类模型。该方法的最大优势是经过一次分类过程,可以确定多类样本的类属。SDSS DR8恒星光谱数据上的比较实验表明,本研究所提的方法较之已有多分类方法在分类性能上有一定的提升。 相似文献
15.
提出一种基于BP神经网络及Ca线线指数估计恒星大气金属丰度的方法。该方法以从斯隆数字巡天SDSS中恒星光谱以及SSPP给出的参数作为训练样本,其中每条恒星光谱计算16个Ca线线指数,结合其他方法得到的表面有效温度Teff作为输入, 以SSPP得到的金属丰度[Fe/H]作为输出,对训练样本进行重采样后通过训练得到一个人工神经网络,通过该网络可以用来预测恒星光谱的[Fe/H]。通过相关实验表明,提出的方法能够准确而且有效的测量出恒星光谱的[Fe/H]。 相似文献
16.
恒星光谱数据的自动识别与分类是现代巡天望远镜所产生的海量光谱数据处理的一项重要研究内容。针对流量未定标的低分辨率恒星光谱设计了一种有效的自动分类方案,实现恒星光谱的MK分类:光谱型及其次型分类,光度型分类。该方案由三部分实现:(1)连续谱归一化:基于小波技术提取低频信号逼近连续谱的方法;(2)七种光谱型及其次型的分类通过非参数回归方法实现。(3)光度型分类通过基于最近邻的χ2方法实现。实验结果表明该方案能够有效实现恒星光谱的MK分类,光谱型及其次型的分类精度为3.2个光谱次型,Ⅰ-Ⅴ光度型的正确识别率为60%, 次优统计率为78%。该方案训练速度快,方法实现容易,适用于海量恒星光谱自动分类处理系统。 相似文献