共查询到20条相似文献,搜索用时 125 毫秒
1.
《数理统计与管理》2021,(1):93-104
针对高维数据"维数灾难"问题,降维是最典型的处理方式之一。降维技术不仅可以减弱"维数灾难"的负面影响,而且能够剔除高维数据中的冗余特征,从而提升高维数据回归、分类等任务的效率。高维数据通常呈现出复杂或非线性结构,恰当的降维方法可以有效地将高维特征数据投影至低维空间,以实现原始数据的非线性特征提取。本文尝试使用无监督学习模型稀疏自编码网络对金融高维数据进行非线性特征提取,将提取到的特征作为有监督学习模型BP神经网络的输入以预测指数收益率。更进一步地,为了验证稀疏自编码算法在特征提取方面的优势与有效性,本文引入稀疏主成分模型进行对比分析。实证分析显示:本文所使用的稀疏自编码网络能够较好地提取非线性特征并进行预测,其预测精度优于以稀疏主成分为代表的线性降维方法。 相似文献
2.
针对经典的流形学习算法Isomap在非线性数据稀疏时降维效果下降甚至失效的问题,提出改进的切近邻等距特征映射算法(Cut-Neighbors Isometric feature mapping,CN-Isomap).该算法在数据稀疏的情况下首先通过有效识别样本点的"流形邻居"来剔除近邻图上的"短路"边,然后再通过最短路径算法拟合测地线距离,使得拟合的测地线距离不会偏离流形区域,从而低维嵌入映射能够正确地反映高维输入空间样本点间的内在拓扑特征,很好地发现蕴含在高维空间里的低维流形,有效地对非线性稀疏数据进行降维.通过对Benchmark数据集的实验表明了算法的有效性.CN-Isomap算法是Isomap算法的推广,不仅能有效地对非线性稀疏数据进行降维,同样也适用于数据非稀疏的情况. 相似文献
3.
4.
针对高维数据集常常存在冗余和维数灾难,在其上直接构造覆盖模型难以充分反映数据分布信息的问题,提出一种基于稀疏降维近似凸壳覆盖模型.首先采用同伦算法求解稀疏表示中l_1优化问题,通过稀疏约束自动获取合理近邻数并构建图,再通过LPP(Locality Preserving Projections)来进行局部保持投影,进而实现对高维空间快速有效地降维,最后在低维空间通过构造近似凸壳覆盖实现一类分类.在UCI数据库,MNIST手写体数据库和MIT-CBCL人脸识别数据库上的实验结果证实了方法的有效性,与现有的一类分类算法相比,提出的覆盖模型具有更高的分类正确率. 相似文献
5.
随着新一代测序技术的广泛使用,单细胞RNA数据逐渐成为研究的主流对象.然而,直接从生物体上获取单细胞RNA数据往往需要付出不小的成本.如何简单快捷地获取这些数据便是一个重要的问题.为了满足对比实验的需要,单细胞RNA数据的模拟方法通常除了模拟数据的统计量和原始数据接近以外,还需要在模拟数据中能够保留原数据的基因和细胞样本.在这里我们介绍了一种基于数据的模拟方法,在保留原数据的基因和细胞样本的基础上,不但可以低成本地模拟单细胞RNA数据,同时保证模拟结果和原数据在大部分特征上相似.通过大量数值实验证明,本文介绍的方法在基因表达的离散程度、0表达比例、表达异常值等方面都优于其他模拟方法,而且和实际数据更加接近. 相似文献
6.
7.
8.
对医疗费用的建模分析与合理预测是医疗保险费用厘定的基础与根本.医疗费用中的高维附加信息在长期预测中具有重要作用.然而,传统的统计建模方法不适用于处理高维纵向数据下的医疗费用.本文提出部分线性多指标可加模型,对具有高维特征的纵向医疗费用数据进行拟合与预测,并且使用两种不同的降维估计方法进行模型估计,并将该模型应用于一组含... 相似文献
9.
为了降低成本、提高研究效率,对与时间相依的数据,有偏抽样方法是广泛应用的基础抽样方法.在建模过程中,它可以从参数的先验信息中提取更有价值的信息.随着数字信息的发展,在许多领域都可以收集到协变量维数大于样本容量的高维数据.变量选择法和独立筛选法是非常有效的降维方法.在比例风险模型中,对参数带有约束条件的回归分析,采用了修正的MM算法,但对不同的模型,此优化算法不再适用.为了克服优化问题的计算复杂难实现的困难,将蚁群算法和粒子群算法等优化算法应用到参数带约束条件的回归分析中. 相似文献
10.
11.
12.
首先运用主成分分析方法对北京市经济指标数据进行降维处理,然后基于降维后的数据拟合部分线性模型.将拟合后的模型对2008年北京市税收进行预测,所得结果优于常用的逐步线性回归分析方法的预测结果. 相似文献
13.
文章基于可加风险模型假设,采用偏最小二乘回归和有监督的主成分回归两种投影降维方法,研究了高维协变量情况下现状数据的降维问题。通过深入地模拟试验,对比两种降维方法在高维相关现状数据的生存预测方面的表现,最后将两种降维方法结合实际数据集进行实证分析。模拟和实证结果表明这两种降维方法能很好地处理具有高维、强相关协变量的小样本数据集,比如基因微阵列数据。在后续的研究中,有望将现状数据扩展至其它更一般的区间删失数据。 相似文献
14.
按照时间顺序,记粮食产量与影响它的生产条件为数据序列,根据灰色关联的基本原理计算他们之间的关联系数,通过对比系数值的大小,分别将和粮食产量关系密切的一些生产因素聚为一类,系数较小的一些因素聚为另一类.接着以两组数据为基础建立GM(1,n)预测模型,预测粮食的产量.发现第一组的预测值与实际统计值相对误差较小,且在模型精度规定范围之内,由此,说明可以通过灰色关联分析方法对影响粮食产量的多个生产因素降维、聚类、重组数据空间做研究. 相似文献
15.
基于数据流形结构的聚类方法及其应用研究 总被引:1,自引:0,他引:1
随着信息社会的不断发展,人类已经进入了信息爆炸时代,海量的数据使数据处理变得繁琐复杂,因此如何对现有的高维数据降维、聚类,并在一定程度上消除高维数据中存在的噪声是解决该问题的关键.基于相关的理论知识采用先降维后聚类的步骤,把高维数据按照子空间结构和流形结构两种情况分类,运用稀疏子空间聚类、谱多流形聚类、K-manifolds方法进行建模求解,通过对各种方法的对比,得出谱多流形聚类方法运行速度快,聚类准确度高,是最具有一般性特征的模型. 相似文献
16.
一种区间数的因子分析技术及其在证券市场中的应用 总被引:1,自引:0,他引:1
传统的因子分析技术能够有效地对高维变量空间进行降维处理,但它对于样本空间却缺乏行之有效的降维效果.为了解决这一问题,一种针对大量样本数据、新的因子分析技术———区间数因子分析技术(intervaldatafactoranalysis,IFA)被提出并得到了迅速的发展。IFA方法对传统的数据概念做了本质性的扩张,运用'数据打包'的理念,对海量原始数据在不破坏其原有内在逻辑关系的前提下,可以进行变量和样本点维度的双重降维。本文详细阐述了区间数因子分析技术的原理,并以中国股票市场为案例研究背景,结果表明IFA分析技术对大规模多维数据系统做综合简化是十分有效的。 相似文献
17.
《应用数学与计算数学学报》2016,(1)
近几年张量列(TT)和量子化张量列(QTT)分解方法被证明是一种非常有效的特征降维工具,并已广泛应用于PDE、算法加速和信号处理等领域.给出了关于QTT分解的一些新结果.首先用分块张量的方法扩展了QTT的定义,使之适用于更加复杂的降维问题.同时指出新定义的QTT分解也是一种基于流形学习的降维工具.其次讨论了QTT与小波变换和卷积在结构上的联系与区别,并指出QTT也是一种特征提取工具.最后将QTT分解应用于三维数据(MRI图像)的去噪和边缘检测,取得了不错的效果. 相似文献
18.
基于随机矩阵理论(RMT)的降维技术能够通过去除噪声和只保留有用“信息”,而对相关矩阵估计中用来描述相关的主成分或因子的最佳使用数量做出确定.本文认为利用RMT对相关矩阵估计的降维操作来实现RMT对多元GARCH模型的有效降维是可能的.为说明基于RMT的降维技术用于多元GARCH模型的有效性,本文建立了两类将基于RMT的相关矩阵估计和波动率结合在一起的多元GARCH模型:滑动相关多元GARCH模型(SC-GARCH模型)和改进的O-GARCH模型(IO-GARCH模型).理论分析表明,这两类模型具有降维的相关结构,易于估计,并且利用RMT能确定出它们的理论最佳维度.实证研究中,本文建立了上海证券市场100只股票收益率的两类多元GARCH模型,并在马克维茨证券组合理论的框架下,考察了它们的协方差矩阵预测效果.结果表明这两类模型的预测效果很好.通过两类模型各个维度预测效果的比较可以看出.RMT能够为多元GARCH的降维提供有效的依据并且较准确地确定多元GARCH模型的最佳维度.理论和实证分析结果表明,基于RMT的降维技术是解决多元GARCH模型“维数灾祸”问题的有效手段. 相似文献
19.
在定期随访的医学研究或临床实验中,人们经常会收集到高维区间删失数据,如何对这类数据进行降维是一个非常有意义的问题.本文基于Kolmogorov-Smirnov检验统计量,利用分割和融合的技巧,把独立特征筛选方法推广到区间删失数据中,提出了一种可以处理超高维Ⅱ型区间删失数据且不依赖于任何模型假设的变量筛选方法.此方法的适用范围很广,可以有效地处理各种生存模型下的超高维Ⅱ型区间删失数据,而且可以处理离散型,连续型等多种类型的协变量.在估计生存函数时,本文采用EM-ICM算法,极大地提高了计算效率.大量的数值模拟实验验证了此方法在有限样本下的有效性. 相似文献