首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
利用正则化方法来进行变量选择是近年来研究的热点.在实际应用中解释变量常常以组的形式存在,通常我们希望将重要的组和组内重要的协变量选择出来,即双重变量选择.基于两种非凸惩罚函数SCAD和MCP,分别提出了稀疏Group SCAD和稀疏Group MCP估计方法,通过分块坐标下降迭代算法,达到组内和组间变量同时稀疏的效果.数值模拟结果表明本文提出的两种方法在模型预测和变量选择能力上优于Group Lasso和稀疏Group Lasso算法.并将该算法有效地应用于实际的初生儿体重数据集分析中.  相似文献   

2.
考虑高维部分线性模型,提出了同时进行变量选择和估计兴趣参数的变量选择方法.将Dantzig变量选择应用到线性部分及非参数部分的各阶导数,从而获得参数和非参数部分的估计,且参数部分的估计具有稀疏性,证明了估计的非渐近理论界.最后,模拟研究了有限样本的性质.  相似文献   

3.
随着大数据时代的到来,在经济学、金融学和生物医学等众多研究领域中频繁收集到高维数据.高维数据的特征之一是变量维数p随着样本量n的增加而变大且通常会超过样本量,同时,异常值也容易出现在高维数据中.因此,如何克服异常值给高维统计推断带来的影响,从而得到更精确的模型,是目前统计学研究的热点问题之一.本文是对高维线性模型下的稳健变量选择方法进行综述.具体地,首先介绍评估稳健性的三个指标:影响函数、崩溃点和最大偏差.其次着重介绍了稳健变量选择方法,包括响应变量含有异常值,响应变量和协变量都含有异常值,高崩溃点且高效的变量选择方法.紧接着介绍相关算法,通过模拟和实例比较不同变量选择方法.最后,简要探讨了高维稳健有效变量选择方法存在的问题及未来的可能发展方向.  相似文献   

4.
针对高维数据"维数灾难"问题,降维是最典型的处理方式之一。降维技术不仅可以减弱"维数灾难"的负面影响,而且能够剔除高维数据中的冗余特征,从而提升高维数据回归、分类等任务的效率。高维数据通常呈现出复杂或非线性结构,恰当的降维方法可以有效地将高维特征数据投影至低维空间,以实现原始数据的非线性特征提取。本文尝试使用无监督学习模型稀疏自编码网络对金融高维数据进行非线性特征提取,将提取到的特征作为有监督学习模型BP神经网络的输入以预测指数收益率。更进一步地,为了验证稀疏自编码算法在特征提取方面的优势与有效性,本文引入稀疏主成分模型进行对比分析。实证分析显示:本文所使用的稀疏自编码网络能够较好地提取非线性特征并进行预测,其预测精度优于以稀疏主成分为代表的线性降维方法。  相似文献   

5.
变量选择控制图是高维统计过程监控的重要方法。针对传统变量选择控制图较少考虑高维过程空间相关性而造成监控效率低的问题,提出一种基于Fused-LASSO的高维空间相关过程监控模型。首先,利用Fused LASSO算法对似然比检验进行改进;然后,推导出基于惩罚似然比的监控统计量;最后,通过仿真模拟和真实案例分析所提监控模型的性能。仿真实验和真实案例均表明:在高维空间相关过程中,当相邻监控变量同时发生异常时,利用所提监控方法能够准确识别潜在异常变量,取得较好的监控效果。  相似文献   

6.
针对高维数据集常常存在冗余和维数灾难,在其上直接构造覆盖模型难以充分反映数据分布信息的问题,提出一种基于稀疏降维近似凸壳覆盖模型.首先采用同伦算法求解稀疏表示中l_1优化问题,通过稀疏约束自动获取合理近邻数并构建图,再通过LPP(Locality Preserving Projections)来进行局部保持投影,进而实现对高维空间快速有效地降维,最后在低维空间通过构造近似凸壳覆盖实现一类分类.在UCI数据库,MNIST手写体数据库和MIT-CBCL人脸识别数据库上的实验结果证实了方法的有效性,与现有的一类分类算法相比,提出的覆盖模型具有更高的分类正确率.  相似文献   

7.
高维数据背景下,数据维度和噪声的影响使得传统的GARCH模型不再适用.针对对角GARCH(goGARCH)模型的不足,将高维稀疏建模法应用到其估计过程中,提出了高维稀疏对角GARCH(HDS-goGARCH)模型.HDS-goGARCH模型通过引入惩罚函数,将一些不重要变量的回归系数压缩为零,来精简模型,达到降维的目的.通过模拟和实证研究发现:较传统的goGARCH模型而言,HDS-goGARCH模型明显提高了高维协方差阵的估计和预测效率;并且将其应用在投资组合时:在收益一定的情况下,由HDS-goGARCH模型所构造的投资组合的风险更小.  相似文献   

8.
传统函数型回归模型变量选择方法,忽略了对稀疏函数型数据的讨论.提出了稀疏函数型数据情形下函数型回归模型的变量选择方法,基于条件期望对稀疏函数型自变量进行函数型主成分分析,并以估计的正交特征函数作为基函数对模型进行展开.这种方法可以有效解决对稀疏函数型变量的选择.作为实证分析,选取2002年到2011年全国34个气象观测站的年降水量,月度平均气温,光照时长,湿度,最高气温和最低气温数据,分别比较讨论了密集和稀疏情形下,原始样本和Bootstrap样本的函数型回归模型变量选择的结果,结果显示新方法具有较好的选择效果.  相似文献   

9.
当真实的潜在模型具有稀疏表示时通常需要使用变量选择方法,确定模型中的重要预测因子可提高被拟合模型的预测性能,许多文献研究了这类问题,其中张和吕[1]针对右删失数据开发了一种基于比例风险模型的变量选择方法.本文研究了基于当前状态数据的加法风险模型的变量选择问题.在文献[1]的启发下,我们提出一种自适应Lasso方法来解决这个问题,并在弱正则性条件下,建立了估计量的相合性和oracle性质等理论结果.大量的模拟数据分析证明了该方法的有效性.我们用该方法分析了一组来自肿瘤研究的真实数据.  相似文献   

10.
生物医学、计量经济学和金融学领域的高维数据通常表现出异方差性,这引起了学者们极大的关注.虽然已经提出了大量方法来解决异方差或重尾误差,但是其中很多缺乏稳健的理论性质并且容易受到高杠杆点的影响.为了克服这些缺陷,本文提出了一种新的针对高维异方差数据的稳健变量选择方法.我们的方法引入了一个非对称的指数平方损失函数,且在一些弱的条件下能实现最高的渐近崩溃点.此外,所提方法具有变量选择的相合性和渐近正态性.实证结果表明我们所提的方法在各种情况下具有竞争力.特别是在高维重尾和异质性数据中存在高杠杆点时,本文的方法优于现有的其它方法.  相似文献   

11.
高维数据变量选择方法综述   总被引:2,自引:0,他引:2  
变量选择是统计学知识结构中不可或缺的一部分。本文归纳梳理了近二十年多来的变量选择方法,着重介绍了处理高维数据以及超高维数据的变量选择方法。最后我们通过一个实例比较了不同变量选择方法的差异性。  相似文献   

12.
在响应变量带有单调缺失的情形下考虑高维纵向线性回归模型的变量选择.主要基于逆概率加权广义估计方程提出了一种自动的变量选择方法,该方法不使用现有的惩罚函数,不涉及惩罚函数非凸最优化的问题,并且可以自动地剔除零回归系数,同时得到非零回归系数的估计.在一定正则条件下,证明了该变量选择方法具有Oracle性质.最后,通过模拟研究验证了所提出方法的有限样本性质.  相似文献   

13.
针对存在缺失数据的超高维可加分位回归模型,本文提出一种有效的变量筛选方法.具体而言,将典型相关分析的思想引入到最优变换的最大相关系数,通过协变量和模型残差最优变换后的最大相关系数重要变量的边际贡献进行排序,从而进行变量筛选.然后,在筛选的基础上,利用稀疏光滑惩罚进一步做变量选择.所提变量筛选方法有三点优势:(1)基于最优变换的最大相关可以更全面的反映响应变量对协变量的非线性依赖结构;(2)在迭代过程中利用残差可以获取模型的相关信息,从而提高变量筛选的准确度;(3)变量筛选过程和模型估计分开,可以避免对冗余协变量的回归.在适当的条件下,证明了变量筛选方法的确定性独立筛选性质以及稀疏光滑惩罚下估计量的稀疏性和相合性.同时,通过蒙特卡罗模拟给出了所提方法的表现并通过一组小鼠基因数据说明了所提方法的有效性.  相似文献   

14.
PP 方法是近年来兴起的一种处理高维数据的统计方法。它最早是由 Kruskal(1969,1972)提出来的。PP 的基本思想是把高维数据投影到低维空间中去。这样,通过对某些感兴趣的投影方向上的数据处理来解决高维问题,因而 PP 方法中最根本的问题是投影方向的选择以及选定方向后如何导出高维结构。PP 是 Projection Pursuit 的缩写,一般译为投影寻踪。  相似文献   

15.
基于随机森林算法的两阶段变量选择研究   总被引:1,自引:0,他引:1  
变量选择在高维数据处理中尤为重要,其中变量的重要性评级是关键问题.文章提出基于随机森林两阶段逐步变量选择算法.第一阶段提出变量重要性排序改进方法,目的进一步提高重要变量与噪声变量的区分度.第二阶段基于随机森林的逐步变量选择.通过模拟数据验证该方法的有效性和可行性.对水稻数据QTL定位进行实证研究,将基于两阶段随机森林逐步变量选择算法与SCAD、Elastic Net、传统QTL定位WinQTLcart2.5软件的运行结果比较,发现基于随机森林两阶段逐步变量选择算法能有效筛选变量.  相似文献   

16.
本文首先研究当变量个数p较大、甚至关于样本n指数速度增长时,高维稀疏线性回归模型下适应的Dantzig选择器估计量的渐近性问题.作为适应的Dantzig选择器的权重,当回归系数的初始估计取为某常数的相合估计时,在一些常规条件下,本文证明了适应的Dantzig选择器具有Oracle性质.对于p≤n和pn两种情形,本文也分别给出了易于实现的初始估计量.最后通过模拟验证了前面的理论结果.  相似文献   

17.
变量选择是统计建模中重要的问题。当试验数据维数很高时,传统变量选择方法的应用受到了很多制约。本文以高维混料试验为基础,比较了AIC准则和LASSO在变量选择问题上的优良性。通过实例验证,LASSO可以快速且准确地对高维混料模型中的变量进行筛选,从而得出最优模型,达到降低成本、提高利益的目的。  相似文献   

18.
向量自回归模型(VAR)广泛应用在对时间相依的多元时间序列建模中,但在高维数据建模中,自回归的系数膨胀可能导致噪音估计、不稳定的预测、解释上的困难等问题。在实际应用中,序列的真实模型往往具有稀疏性,因此运用稀疏VAR模型对高维时间序列进行建模,不仅可以解决高维数据带来的上述困难,也有利于寻找高维数据内在的真实模型。本文以10家公司的股票收益率为研究对象,采用3种不同的稀疏估计方法,不但分析了股票收益率之间的动态关系,而且通过实证分析展示了稀疏估计的优势。  相似文献   

19.
针对经典的流形学习算法Isomap在非线性数据稀疏时降维效果下降甚至失效的问题,提出改进的切近邻等距特征映射算法(Cut-Neighbors Isometric feature mapping,CN-Isomap).该算法在数据稀疏的情况下首先通过有效识别样本点的"流形邻居"来剔除近邻图上的"短路"边,然后再通过最短路径算法拟合测地线距离,使得拟合的测地线距离不会偏离流形区域,从而低维嵌入映射能够正确地反映高维输入空间样本点间的内在拓扑特征,很好地发现蕴含在高维空间里的低维流形,有效地对非线性稀疏数据进行降维.通过对Benchmark数据集的实验表明了算法的有效性.CN-Isomap算法是Isomap算法的推广,不仅能有效地对非线性稀疏数据进行降维,同样也适用于数据非稀疏的情况.  相似文献   

20.
高维空间中数据的相似性度量   总被引:5,自引:0,他引:5  
高维空间中数据之间的相似性度量是目前数据挖掘、信息处理与检索等领域所面临的一个重要问题.文章在总结分析了高维数据的特点以及现有的一些度量方法的基础上,提出了一种新的度量方式,该方法在对高维数据进行相似性度量之前,首先对原始数据空间进行网格划分.文章的最后对其有效性作了定量分析,实验证明,该方式是行之有效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号