首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
生物医学、计量经济学和金融学领域的高维数据通常表现出异方差性,这引起了学者们极大的关注.虽然已经提出了大量方法来解决异方差或重尾误差,但是其中很多缺乏稳健的理论性质并且容易受到高杠杆点的影响.为了克服这些缺陷,本文提出了一种新的针对高维异方差数据的稳健变量选择方法.我们的方法引入了一个非对称的指数平方损失函数,且在一些弱的条件下能实现最高的渐近崩溃点.此外,所提方法具有变量选择的相合性和渐近正态性.实证结果表明我们所提的方法在各种情况下具有竞争力.特别是在高维重尾和异质性数据中存在高杠杆点时,本文的方法优于现有的其它方法.  相似文献   

2.
随着信息技术的高速发展,每条数据所包含的信息越来越丰富,使得数据不可避免地含有异常值,且随着维数的增加,异常值出现的可能性更大。传统的主成分聚类分析对异常值特別敏感,基于MCD估计的主成分聚类方法虽然对异常值具有防御作用,但是在高维数据下MCD估计的偏差过大,其稳健性显著降低,而且当维数大于观测值个数时MCD估计失效。为此本文提出了基于MRCD估计的稳健主成分聚类方法,数值模拟和实证分析表明,基于MRCD估计的主成分聚类分析的效果优于传统的主成分聚类分析和基于MCD估计的主成分聚类分析,尤其是在维数大于样本观测值的情况下,MRCD估计更为有效。  相似文献   

3.
因子分析是常用的多元统计分析方法之一,其思想是根据变量间的相关关系求出少数几个主因子,利用这些主因子描述原始变量。传统因子分析方法具有不稳健性,如果数据存在离群值会得到不合理的结果。虽然基于MCD估计的稳健因子分析具有良好的抗干扰性,但是MCD估计的精度会随着维数的增加而不断降低,在维数大于样本量的情形下,该方法甚至会失去有效性。为了对高维数据进行有效的因子分析,本文提出基于MRCD估计的高维稳健因子分析方法。模拟分析的结果表明,在高维数据下,相较于传统因子分析以及MCD稳健因子分析,MRCD高维稳健因子分析能够很好地抵抗离群值的影响,得出更为合理的结论。本文在实证分析部分对11个沿海省份进行研究,结果显示MRCD高维稳健因子模型能够有效地得出高维数据的因子分析结果;沿海各省份经济增长质量发展不平衡,上海、广东经济增长质量发展得较好。  相似文献   

4.
对模型精度与稳健性的要求使得异常值检测与稳健估计在模型构建中变得日益重要.本文首先利用基于边际相关系数构造的高维影响度量指标(HIM)与基于距离相关系数构造的高维数据异常值判别方法(HDC)分别对数据中的异常值进行初步检测,将数据集中的点分为正常点与异常点两类,然后在初始正常点集的基础上利用稳健的参数估计方法和残差空间...  相似文献   

5.
考虑了删失分位数变系数回归模型的FIC准则,并基于FIC准则给出了兴趣参数的模型选择和平均估计.为了全面反映响应变量的分布信息,克服异常值和重尾模型误差,文章对响应变量的不同分位数水平进行建模,因此与普通最小二乘方法相比更为稳健.在较为一般的条件下,证明了所提估计的渐近性质,通过模拟实验研究了估计的有限样本性质,用所提方法分析了手机用户的游戏时间数据.  相似文献   

6.
GARCH(1,1)模型的稳健估计比较及应用   总被引:1,自引:0,他引:1  
首先阐述了GARCH(1,1)模型稳健估计的构造方法,然后在模型有无异常值扩散效应约束和异常值比例不同的情况下,比较了传统QMLE估计和多种稳健M估计的表现,结果表明:在数据无异常值下,QMLE估计较优;随着异常值比例增加,稳健Andrew估计表现更好;模型施加异常值扩散效应约束对估计有一定改善但不显著.最后选取波动程度不同的两个阶段沪深300指数的收益率,用模型拟合进行了实例比较,在波动程度较大时,Andrew估计效果较优,在波动相对平稳时,LAD估计较优.  相似文献   

7.
回归模型一般采取传统的最小二乘估计(LSE)方法,然而当数据包含非正态特征或异常值时该估计方法会导致不稳健的参数估计.与LSE方法相比,即使出现非正态误差或异常数据,复合分位回归(CQR)方法也能提供更稳健的估计结果.基于复合反对称拉普拉斯分布(CALD),本文提出了贝叶斯框架下的加权复合分量回归(WCQR)方法.正则化方法已经被验证可以有效处理高维稀疏回归模型,它可以同时进行变量选择和参数估计.本文结合贝叶斯LASSO正则化方法和WCQR方法来拟合线性回归模型,建立了 WCQR的贝叶斯LASSO正则化分层模型,并导出了所有参数的条件后验分布以进行统计推断.最后,通过蒙特卡罗模拟和实际数据分析演示了所提出方法.  相似文献   

8.
由于高维数据的稀疏性,导致高维空间中的数据处理方法与低维空间中存在显著差异,合理的变量选择方法是解决高维数据问题的一个前提.从理论方面探讨Logistic模型中参数的MCP方法的Oracle性质,证明了MCP估计具有良好的理论性质.在搜索引擎广告转化率预测模型中,对比了几种不同变量选择方法的预测效果.结果表明MCP方法在处理高维稀疏数据时,准确率最高.通过方法筛选出若干显著影响广告转化率的特征变量,为广告主制定广告策略提供相应的理论依据.  相似文献   

9.
含有协变量缺失的数据缺失问题是现代统计分析中的热点之一.当缺失数据中同时存在厚尾,偏斜和异方差问题时则更加难以处理.为此,本文提出一种逆概率加权分位回归估计来研究响应和协变量之间的关系.与经典估计方法相比具有明显优势,一方面,该估计量使用了所有可用的数据,并且允许缺失的协变量与响应高度相关;另一方面,该估计量在所有分位数水平上满足一致性和渐近正态性.通过模拟验证了该方法的在有限样本下的有效性,进一步将该方法推广到线性多元回归模型和非参数回归模型.  相似文献   

10.
陈丙振  孔令臣  尚盼 《计算数学》2018,40(4):402-417
随着大数据时代的到来,我们面临的数据越来越复杂,其中待估系数为矩阵的模型亟待构造和求解.无论在统计还是优化领域,许多专家学者都致力于矩阵模型的统计性质分析及寻找其最优解的算法设计.当随机误差期望为0且同方差时,采用基于最小二乘的模型可以很好地解决问题.当随机误差异方差,分布为重尾分布(如双指数分布,t-分布等)或数据含有异常值时,需要考虑稳健的方法来求解问题.常用的稳健方法有最小一乘,分位数,Huber等.目前稳健方法的研究大多集中于线性回归问题,对于矩阵回归问题的研究比较缺乏.本文从最小二乘模型讲起,对矩阵回归问题进行了总结和评述,同时列出了一些文献和简要介绍了我们的近期的部分工作.最后对于稳健矩阵回归,我们提出了一些展望和设想.  相似文献   

11.
本文考虑超高维部分线性模型,其中线性部分的维数p大于样本量n,且维数p随着样本量n呈指数阶增长.首先,利用半参数回归的profile方法,把超高维部分线性模型转化成超高维线性模型.其次,为了对高维线性分量进行有效的变量筛选,考虑到协变量之间的相关性,结合贪婪算法和向前回归变量筛选方法,针对部分线性模型,提出了profile贪婪向前回归(PGFR)变量筛选方法.在一定正则条件下,证明了所提PGFR方法具有筛选相合性.为了确定所选模型是否能够依概率趋于1包含真实模型,进一步提出了BIC准则.最后,通过模拟研究和实例分析验证了PGFR方法在有限样本下的完成情况.  相似文献   

12.
变量选择是统计建模中重要的问题。当试验数据维数很高时,传统变量选择方法的应用受到了很多制约。本文以高维混料试验为基础,比较了AIC准则和LASSO在变量选择问题上的优良性。通过实例验证,LASSO可以快速且准确地对高维混料模型中的变量进行筛选,从而得出最优模型,达到降低成本、提高利益的目的。  相似文献   

13.
纵向数据常常用正态混合效应模型进行分析.然而,违背正态性的假定往往会导致无效的推断.与传统的均值回归相比较,分位回归可以给出响应变量条件分布的完整刻画,对于非正态误差分布也可以给稳健的估计结果.本文主要考虑右删失响应下纵向混合效应模型的分位回归估计和变量选择问题.首先,逆删失概率加权方法被用来得到模型的参数估计.其次,结合逆删失概率加权和LASSO惩罚变量选择方法考虑了模型的变量选择问题.蒙特卡洛模拟显示所提方法要比直接删除删失数据的估计方法更具优势.最后,分析了一组艾滋病数据集来展示所提方法的实际应用效果.  相似文献   

14.
广义估计方程(GEE)是分析纵向数据下响应变量是离散的或非负的回归问题常用方法.本文研究了高维GEE的变量选择,在更弱的条件下证明了相关阵(或协方差)假定不一定正确,只要均值函数假定正确,模型选择是相合的,得到了变量选择的Oracle性质.改进了WANG(2011)和WANG,ZHOU,QU(2012)的结果.  相似文献   

15.
本文结合分位数回归技术,基于删失回归模型,把Claeskens和Hjort的传统兴趣信息准侧(focused information criterion,FIC)扩展到兴趣向量的情形,提出扩展的兴趣信息准则(extended focused information criterion,E-FIC),有效解决了同时针对多个兴趣参数的平均估计问题,并且对删失响应变量的不同水平分位数进行建模,以全面反映响应变量分布特征,有效克服异常值和厚尾模型误差的影响.基于扩展的兴趣信息准则给出参数的平均估计方法,证明估计的渐近性质.通过Monte Carlo随机模拟试验比较所提估计方法和最小二乘方法在有限样本量下的表现,用所提方法对原发性胆汁性肝硬化数据集进行数据分析.  相似文献   

16.
对于含测量误差的重复测量数据,协变量与响应变量真值之间可能不存在完全匹配关系,即存在方程误差.且变量真值的测量误差方差可能与样本的某种特征有关,即存在异方差性.以此类数据为驱动,讨论了含方程误差的异方差重复测量误差模型的建模和估计问题,基于EM算法给出了模型参数的显式极大似然迭代估计.最后通过模拟计算和实例分析,讨论了模型和估计方法的有效性.  相似文献   

17.
纵向数据常常用正态混合效应模型进行分析.然而,违背正态性的假定往往会导致无效的推断.与传统的均值回归相比较,分位回归可以给出响应变量条件分布的完整刻画,对于非正态误差分布也可以给稳健的估计结果.本文主要考虑右删失响应下纵向混合效应模型的分位回归估计和变量选择问题.首先,逆删失概率加权方法被用来得到模型的参数估计.其次,结合逆删失概率加权和LASSO惩罚变量选择方法考虑了模型的变量选择问题.蒙特卡洛模拟显示所提方法要比直接删除删失数据的估计方法更具优势.最后,分析了一组艾滋病数据集来展示所提方法的实际应用效果.  相似文献   

18.
在大数据背景下,高维资产组合的构造以及选择是金融领域研究的热点和难点问题.文章构造了基于SCGARCH模型的含有范数约束的高维时变最小方差投资组合模型,将其记为NC-MVP-SCGARCH.该组合的优势主要体现在两方面:首先采用SCGARCH模型来估计和预测组合的重要输入变量——资产间的协方差阵,该模型将改进的乔列斯基分解法和卡尔曼滤波估计方法相结合,在解决了高维数据所面临的维数诅咒的同时,考虑了过去市场信息对协方差阵估计的影响;其次,基于范数约束的最小方差投资组合(NC-MVP)将l1和l2范数有机结合,更加适用于高维资产.研究发现:文章构造的NC-MVP-SCGARCH组合效果更优.  相似文献   

19.
变量选择控制图是高维统计过程监控的重要方法。针对传统变量选择控制图较少考虑高维过程空间相关性而造成监控效率低的问题,提出一种基于Fused-LASSO的高维空间相关过程监控模型。首先,利用Fused LASSO算法对似然比检验进行改进;然后,推导出基于惩罚似然比的监控统计量;最后,通过仿真模拟和真实案例分析所提监控模型的性能。仿真实验和真实案例均表明:在高维空间相关过程中,当相邻监控变量同时发生异常时,利用所提监控方法能够准确识别潜在异常变量,取得较好的监控效果。  相似文献   

20.
当数据呈现厚尾特征或含有异常值时,基于惩罚最小二乘或似然函数的传统变量选择方法往往表现不佳.本文基于中位数回归和贝叶斯推断方法,研究线性模型的贝叶斯变量选择问题.通过选取回归系数的Spike and Slab先验,利用贝叶斯模型选择理论提出了中位数回归的贝叶斯估计方法,并提出了有效的后验Gibbs抽样程序.大量数值模拟和波士顿房价数据分析充分说明了所提方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号