首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
面向LAMOST的天体光谱离群数据挖掘系统研究   总被引:4,自引:3,他引:1  
在宇宙中寻求未知天体是人类探索宇宙奥妙所追求的目标之一,离群数据挖掘是发现未知天体光谱数据的一种有效途径。文章首先以VC++和Oracle9i为开发工具,设计与实现了面向LAMOST的恒星光谱离群数据挖掘系统,并给出了其软件体系结构和模块功能。其次,对基于中值滤波器的恒星光谱数据预处理、基于距离的恒星光谱数据聚类、基于距离支持度的恒星光谱数据离群数据挖掘、基于主分量分析法PCA的恒星光谱数据离群数据的三维可视化等主要关键技术进行了详细描述。最后,基于SDSS恒星光谱数据的运行结果表明,利用该系统寻找天体光谱离群数据是可行的,从而为寻找未知的、特殊的天体光谱数据提供了一种新途径。  相似文献   

2.
在海量的天体光谱数据中利用无监督聚类学习方法将天体自动分类具有更加诱人的前景。针对当前聚类方法存在的缺点,提出一种高效的高维数据硬划分算法,在此基础上提出了一种分阶段模糊聚类方法。第一阶段,利用硬划分算法对数据聚类,克服了模糊聚类算法对初始值敏感的缺点。第二阶段,以第一阶段运算结果作为初始值,进行模糊聚类的,并将微粒群算法引入模糊聚类,从而保证了聚类结果的全局最优性。实验结果表明,该方法用于天体光谱聚类是可行的、有价值的。  相似文献   

3.
探索海量的M型恒星中具有磁活动、巨星等较特殊、稀有的天体,对于后续观测、银河系结构、演化等科学研究具有重要的意义,针对M型恒星光谱特征线出现在子空间中的局部偏离,设计并实现了晚型恒星离群数据挖掘系统。首先采用稀疏因子和稀疏度系数度量样本在属性空间上的分布特征,并在此基础上对M型恒星光谱特征线进行离散化、降维等预处理,获得光谱子空间;然后采用微粒群算法搜索离群子空间,并证认子空间内光谱是否离群;此外,选择SDSS M型光谱特征线指数集为样本,实验分析了稀疏因子和稀疏度系数的设置对离群结果的影响,并将离群挖掘结果与SDSS提供光谱型等参数对照,表明利用该系统实现晚型恒星光谱特征线局部离群数据挖掘是可行并有价值的。  相似文献   

4.
大规模光谱巡天将产生海量的光谱数据,为搜寻一些奇异甚至于未知类型的光谱提供了机会,对这些特殊天体的研究有助于揭示宇宙的演变规律和生命起源,巡天数据的离群数据挖掘有助于这些特殊的光谱的发现。利用线指数对光谱数据进行降维能够在尽可能多的保留光谱物理特征的同时,有效解决高维光谱数据聚类分析中运算复杂度较高的问题。提出了基于线指数特征的海量恒星光谱离群数据挖掘及分析的方法,以恒星光谱的Lick线指数作为光谱数据的特征,利用聚类搜寻离群数据的方法在海量光谱巡天数据搜寻离群数据,以此为基础并给出线指数特征空间内离群光谱数据的分析方法。实验结果证明:(1)以线指数作为光谱的特征值能快速的完成对高维光谱数据的离群数据挖掘,可以解决高维光谱数据运算复杂度高的问题;(2)该方法是在聚类结果上进行的离群数据挖掘,能够有效的挖掘出数量较少的发射线恒星、晚M型恒星、极贫金属星、缺失数据光谱等数据;(3)线指数特征空间的离群数据挖掘可以得到线指数特征空间内特殊恒星的发现规则。本文所提出的基于线指数特征的离群数据挖掘及分析方法可以应用到巡天数据的相关研究中。  相似文献   

5.
寻找特殊的、未知的天体是人类探索宇宙奥妙所追求的目标之一,天体光谱数据挖掘是实现该目标的一种有效方法。约束概念格是一种新的概念格结构,具有构造效率高、提取知识针对性和实用性强等特点。针对天体光谱数据在特征子空间中的局部偏离,采用VC++ 6.0和Oracle 9i作为开发工具,设计与实现了基于约束概念格的天体光谱局部离群数据挖掘系统,并对软件模块功能和体系结构,以及天体光谱数据预处理、约束概念格构造方法、基于链表结构的概念格构造、局部离群数据挖掘方法等关键技术进行了详细描述。运行结果表明,该系统实现天体光谱数据局部离群数据挖掘是可行的、有价值的,从而为寻找未知的、特殊的天体提供了一种新途径。  相似文献   

6.
天体光谱是天体物理学重要的研究对象,通过光谱可以获取天体的许多物理、化学参数如有效温度、金属丰度、表面重力加速度和视向速度等。白矮主序双星是一类致密的双星系统,对研究致密双星的演化特别是公共包层的演化有着重要的意义。国内外的大型巡天望远镜如美国斯隆望远镜以及中国的郭守敬望远镜,每天都产生大量光谱数据。如此海量的光谱数据无法完全用人工进行分析。因此,使用机器学习方法从海量的天体光谱中自动搜索白矮主序双星光谱,有着非常现实的意义。目前的光谱自动识别方法主要通过对已有的标签样本进行分析,通过训练得到分类器,再对未知目标进行识别。这类方法对样本的数量有明确的要求。白矮主序双星的实测光谱数量有限。若要通过有限的样本集准确学习白矮主序双星的光谱特征,不仅需要扩大样本数量,还需要提高特征提取和分类算法的精度。在前期工作中,通过机器学习等方法在海量巡天数据中识别了一批白矮主序双星的光谱,为该实验提供了数据源。使用对抗神经网络生成新的白矮主序双星光谱,扩大训练数据量至原数据集约两倍的数量,增强了分类模型的泛化能力。通过反贝叶斯学习修正损失函数,将损失函数的大小与样本的方差相关联,抑制了异常数据对模型造成的影响,提升了模型的鲁棒性,解决了由于训练样本集偏差带来的梯度消失以及训练陷入局部最优解等问题。该实验基于Tensorflow深度学习库。使用Tensorflow搭建的生成对抗网络具有较好的鲁棒性,并且封装了内部实现细节,使得算法得以更好地实现。除此之外,由Tensorflow搭建的卷积神经网络在该实验中用于分类准确度测试。实验结果表明,二维卷积神经网络能够利用卷积核有效地提取白矮主序双星的卷积特征并进行分类。基于反贝叶斯学习策略的卷积神经网络分类器在白矮主序双星原始数据及对抗神经网络生成光谱的识别任务中达到了约98.3%的准确率。该方法也可用于在巡天望远镜的海量光谱中搜索其他特殊和稀少天体如激变变星、超新星等。  相似文献   

7.
针对数据集样本中带有噪声和离群点问题,提出了一种基于角度优化的鲁棒极端学习机算法。该方法利用鲁棒激活函数角度优化的原则,首先降低了离群点对分类算法的影响,从而保持数据样本的全局结构信息,达到更好的去噪效果。其次,有效的避免隐层节点输出矩阵求解不准的问题,进一步增强极端学习机的泛化性能。通过应用在普遍图像数据库上的实验结果表明,这种提出的算法与其他算法相比具有更强的鲁棒性和较高的识别率。  相似文献   

8.
茶叶是全球最受欢迎饮品之一,且具有丰富的营养价值,但目前市面上的茶叶鱼龙混杂,难以辨别。因此,快速准确的分类方法对茶叶进行鉴别具有重要的研究意义。由于大多数化合物基频吸收带均出现在波长为2 500~25 000 nm的中红外区域,茶叶的中红外光谱中含有大量关于茶叶品种的特征鉴别信息,利用这一显著特点可以对其进行分类。提出模糊协方差学习矢量量化(FCLVQ),该算法在GK(Gustafson-Kessel)聚类的基础上,引入学习向量量化(LVQ)中学习速率的概念,用以控制模糊类中心的更新速率。FCLVQ结合中红外光谱,通过不断迭代计算样本模糊隶属度值和模糊聚类中心,实现对茶叶的快速精准分类。选取市场上的峨眉山茶叶、优质竹叶青茶叶、劣质竹叶青茶叶作为实验对象。将实验对象分为3组(每个品种各1组),每组32个,共计96个样本。利用FTIR-7600型傅里叶红外光谱分析仪分别采集每组样本的中红外光谱数据,每组样本采集三次,取其平均值作为样本的红外光谱数据。首先,由于原始光谱含有噪声数据,故使用多元散射校正(MSC)作降噪预处理;其次,由于光谱数据维数高达1 868维,采用主成分分析(PCA)将...  相似文献   

9.
天体光谱中蕴含着非常丰富的天体物理信息,通过对光谱的分析,可以得到天体的物理信息、化学成分以及天体的大气参数等。随着LAMOST和SDSS等大规模巡天望远镜的实施,将会产生海量的光谱数据,尤其是LAMOST正式运行后,每个观测夜产生大约2~4万条光谱数据。如此海量的光谱数据对光谱的快速有效的处理提出了更高的要求。恒星光谱的自动分类是光谱处理的一项基本内容,该研究主要工作就是研究海量恒星光谱的自动分类技术。Lick线指数是在天体光谱上定义的一组用以描述光谱中谱线强度的标准指数,代表光谱的物理特性,以每个线指数最突出的吸收线命名,是一个相对较宽的光谱特征。研究了基于Lick线指数的贝叶斯光谱分类方法,对F,G,K三类恒星进行分类。首先,计算各类光谱的Lick线指数作为特征向量,然后利用贝叶斯分类算法对三类恒星进行分类。针对海量光谱的情况,基于Hadoop平台实现了Lick线指数的计算,以及利用贝叶斯决策进行光谱分类的方法。利用Hadoop HDFS高吞吐率和高容错性的特点,结合Hadoop MapReduce编程模型的并行优势,提高了对大规模光谱数据的分析和处理效率。该研究的创新点为:(1) 以Lick线指数作为特征,基于贝叶斯算法实现恒星光谱分类;(2) 基于Hadoop MapReduce分布式计算框架实现Lick线指数的并行计算以及贝叶斯分类过程的并行化。  相似文献   

10.
肺炎支原体是造成人类呼吸系统疾病的主要原因。临床中,患者感染不同肺炎支原体症状极为相似,很难根据症状判别肺炎支原体类型并对症给药。因此,准确判别肺炎支原体菌株类型对于发病机理和疾病流行病学研究以及临床精准治疗具有重要意义。拉曼光谱具有快速、高效、无污染等优点,在生物医学领域逐渐得到越来越多研究者们的关注。一维卷积神经网络(1D-CNN)是一类包含卷积运算且具有深度结构的前反馈网络,在语音信号和振动信号分析等方面取得成功应用。提出一维卷积神经网络与拉曼光谱技术结合,针对肺炎支原体主要基因型M129型和FH型样本的拉曼光谱数据集,实现肺炎支原体菌株分类。利用光谱数据增强方法扩充原光谱数据集作为模型输入,训练一维卷积神经网络模型,解决由于小样本导致卷积神经网络数据饥渴问题;为了得到最好的肺炎支原体分类效果并加速学习过程,优化模型结构并确定最佳模型参数;拉曼光谱测量时常混有高斯噪声、泊松噪声和乘性噪声,为优化模型抗噪能力,将原光谱分别叠加高斯噪声、泊松噪声和乘性噪声,训练一维卷积神经网络模型并和LDA,KNN和SVM等传统算法进行比较。实验结果表明基于1D-CNN方法,对于叠加高斯噪声的光谱数据所建模型分类正确率为98.0%,叠加泊松噪声的光谱数据分类正确率为97.0%,叠加乘性噪声的光谱数据分类正确率为97.0%,分类正确率远高于基于LDA,KNN和SVM等传统算法所建模型分类正确率;同时构造叠加5,15,25,35,45和55 dBW不同强度噪声的光谱数据集,当噪声达到55 dBW时,1D-CNN模型仍能取得92.5%的分类正确率。因此,一维卷积神经网络结合拉曼光谱技术应用于肺炎支原体菌株类型分类是可行的,具有抗噪声能力强和分类正确率高的优点,该研究为肺炎支原体肺炎快速诊断提供新思路。  相似文献   

11.
类星体是人类所观测到的最遥远天体,对于了解早期宇宙的演化具有重要科学意义。由于类星体距离地球较远,其红移一般较大,导致在光学观测窗口中只有很少的特征(发射线),且难以识别。类星体光谱的异常特征提取与分析可对未知类星体的识别,提供有效的判别依据。离群检测作为数据挖掘领域的一个主要研究内容,旨在发现那些稀有、特殊数据对象及异常特征,可作为从海量类星体光谱数据中,发现特殊、未知类星体的一种有效途径和手段。Spark作为新一代大数据分布式处理框架,可为海量天体光谱的有效分析和处理,提供一个高效且可靠的并行编程平台。本文充分利用集群系统和Spark编程模型的强大数据处理能力,提出一种基于稀疏子空间的类星体光谱异常特征并行提取与分析方法,其工作由三个模块组成,即类星体光谱特征约减、类星体光谱的稀疏子空间构造和搜索、类星体光谱异常特征提取并行算法设计与分析。类星体光谱特征约减模块,通过属性相关性分析来识别呈现聚类结构的类星体光谱特征线,这些特征线通常会聚集在稠密区域且对类星体光谱异常特征检测毫无意义。光谱特征约减旨在运行异常特征检测算法之前剪枝类星体光谱的冗余特征线,缩小光谱数据检测范围。类星体光谱的稀疏子空间构造和搜索模块,通过设定的稀疏系数阈值来测量类星体光谱的子空间密度,并采用粒子群优化方法作为稀疏子空间的搜索策略,从而快速、高效地获取类星体的异常特征。在第三个模块中,提出了一种MapReduce框架下的类星体光谱异常数据并行检测算法,该算法由并行化数据约减策略、稀疏子空间并行搜索技术两个MapReduce构成,达到适应海量光谱数据的处理目标。最后对检测出的部分类星体异常特征进行了理论分析、测量及人眼证认,充分说明稀疏子空间可为识别特殊、未知类星体候选源,提供有效支持和有力证据。  相似文献   

12.
基于相融性度量的光谱分类方法   总被引:2,自引:2,他引:0  
海量天体光谱的自动分类以及从海量天体光谱中发现新类型天体或新的天文规律(知识发现)已经受到天文工作者的普遍关注。在相关文献中这两方面的研究工作都是分别进行的。文章首先提出了一种相融性度量的概念,该度量能够刻画一个样本与训练样本集融合为一体的程度。然后,在此基础上给出了一种基于相融性度量的k-近邻分类方法。该方法不仅能够实现较准确的分类,而且还具有相当好的知识发现能力。通过对活动星系与活动星系核实验表明,该方法无论对分类还是对知识发现都是非常有效的。  相似文献   

13.
LAMOST-DR1是郭守敬望远镜正式巡天发布的首批数据,其数量超过目前世界上所有已知恒星巡天项目的光谱总数。这为进一步扩大特殊和稀少天体如激变变星的数量提供了样本,同时也对天文数据处理方法和技术提出了更高的要求。针对LAMOST的数据特点,提出一种能够在海量天体光谱中自动、快速发现激变变星的方法。该方法使用拉普拉斯特征映射对天体光谱进行降维和重构。结果表明不同类别的天体光谱在拉普拉斯空间中能够得到较明显的区分。在使用粒子群算法对神经网络的参数进行优化后,对LAMOST-DR1的全部数据进行了自动识别。实验共发现了7个激变变星,经过证认,其中2个是矮新星,2个是类新星,1个是高度极化的武仙座AM型。这些光谱,补充了现有的激变变星光谱库。本文验证了拉普拉斯特征映射对天体光谱进行特征提取的有效性,为高维光谱进行降维提供了另一途径。在郭守敬望远镜正式发布的数据中寻找激变变星的首次尝试,实验结果表明该自动化的方法鲁棒性好,速度快,准确率高。该方法也可用于其他大型巡天望远镜的海量光谱处理。  相似文献   

14.
Classification noise is a common byproduct of traditional data mining approaches, and no specialized approach for detecting classification noise is currently available. Methods for outlier detection are well-developed, but outliers and classification noise have characteristics different enough to make outlier detection algorithms unsuitable for classification noise detection. In this paper, a new, specialized approach to detect classification noise is proposed, named relative density based classification noise detection (RDBCND). Computational experiments in artificial data sets described herein show that RDBCND has time complexity of O(n log n), indicating greater efficiency than traditional approaches, which exhibit time complexity of at least O(n2). The use of classification noise detection to improve the generalization ability of common classifier algorithms is also described. In particular, a new unified approach based on RDBCND is compared to a cross validation approach applied to a BP neural network. Trials in both artificial and real-life datasets show that the RDBCND-based approach can greatly accelerate the process of identifying the best decision function. The novel method can also eliminate underfitting, as the algorithm simply searches for the highest training accuracy. The experiments also show that the RDBCND-based method has greater accuracy and lower cpu time in reaching global solutions than the cross-validation method. Since the relative density is a local concept, our new approach can be directly used in nonlinear datasets without data transformation. It is a great advantage compared to some linear classifier algorithms. As in current linear classifiers, the kernel functions or other transformations need to be used to make them suitable for non-linear datasets, and that will increase their complexity.  相似文献   

15.
吴永昊  刘玉颖  宋敏 《大学物理》2020,(2):69-73,77
运动、力、动量、能量是大学物理教学最基本且重要的内容.在牛顿力学中,如果已知初始条件,对于有序系统可以预测其未来的运动状态,牛顿力学在天文学上的处理是最成功的.本文基于万有引力定律和动量定理,借助计算机软件VPython模拟天体的运动过程,例如卫星、月球绕地球的运动,火星绕太阳的运动,卫星绕双星系统的运动,直观地显示了天体运动轨迹,使天体运动过程实现了可视化.教学实践表明基于VPython的天体轨道运动模拟与可视化,可以使学生更好地理解并灵活运用牛顿运动定律和动量定理,是对经典物理教学内容的有益补充.  相似文献   

16.
从海量天体光谱数据中挖掘光谱数据特征和物理化学性质之间内在的、隐含的相关性,是人类探索天文规律的一种有效方法。利用基于约束FP树的关联规则挖掘方法作为天体光谱数据相关性分析手段,采用VC++和Oracle9i作为开发工具,设计与实现了天体光谱数据相关性分析系统,给出了其系统的软件体系结构和模块功能,并对光谱数据预处理、背景知识表示、CFP树构造、频繁模式提取及关联规则生成等关键技术以及关键模块的实现技术,进行了详细描述。系统运行结果表明,利用关联规则来描述、分析天体光谱数据特征和物理化学性质之间存在的相关性,是可行的和有价值的,从而为寻找天体规律提供了一种有效手段。  相似文献   

17.
特殊恒星是金属丰度异常的恒星,其中包含的信息对于研究宇宙起源、太阳系的演变以及生命的演化都有着重要的意义。因此,特殊恒星的搜寻是国内外巡天项目中的重要目标。恒星光谱中包含着恒星的化学成分、物理性质以及运动状态等丰富的信息,它是开展恒星研究的重要依据。恒星的识别、分类以及特殊恒星的发现主要依据的是恒星光谱数据。随着LAMOST和SDSS等国内外大规模数字巡天项目的深入展开,恒星光谱的数据量达到了前所未有的高度,如此大的数据量为特殊恒星的发现提供了强有力的支撑。因此如何利用这些数据快速准确地发现特殊、稀少甚至于未知类型的恒星光谱是天文学研究的重要问题。数据挖掘是结合模式识别、机器学习、统计分析及相关专家背景知识,从数据中提取出隐含的过去未知的有价值的潜在信息的技术,其在处理大数据方面有着天然的优势,越来越多的数据挖掘方法被应用到巡天数据处理及分析之中。目前针对特殊恒星搜寻的数据挖掘算法主要包含随机森林、聚类分析以及异常值检测等,但随着巡天深度的拓展,观测的目标越来越暗,进而观测光谱的信噪比也随之变低。低信噪比光谱中存在着大量的无用信息,直接利用相关算法对其进行分析处理得到的结果往往存在很大的偏差。因此,如何从大量低信噪比恒星光谱巡天数据中有效地搜寻出特殊的恒星光谱,是当前面临的一个重要问题。由于低信噪比恒星光谱本身的特点,对于从中搜寻特殊恒星光谱的工作开展较少。为了解决此问题,在仔细研究光谱数据处理方法的基础上,针对低信噪比巡天数据中特殊恒星光谱的搜寻,提出了一种以主成分分析(PCA)和基于密度峰值聚类为基础的方法。该方法首先选取O,B,A,F,G,K和M各种类型的高信噪比恒星光谱,进行波长统一和流量插值后,利用主成分分析得到特征光谱;然后利用方差贡献率最大的前几个特征光谱对低信噪比的恒星光谱进行重构得到高信噪比的光谱;最后利用重构之后的高信噪比光谱进行聚类,聚类分析中得到的离群数据即为所要搜寻的特殊恒星光谱。在聚类时,考虑到恒星光谱数据本身的特点,采用了一种基于密度峰值的聚类方法来进行聚类及离群点的挖掘。实验表明,该方法能够在低信噪比的恒星光谱巡天数据中准确地搜寻出数量相对较少的特殊恒星。同时,也可应用于诸如LAMOST、SDSS等各种银河系巡天的光谱数据分析与挖掘中。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号