首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对ARMA模型建模过程中模型识别和参数估计易受观测值异常点影响问题,构建了同时考虑加性异常点和更新性异常点的ARMA模型.运用基于Gibbs抽样的Markov Chain Monte Carlo贝叶斯方法,估计稳健ARMA模型参数,同步确定观测值中异常点的位置,辨别异常点类型.并利用我国人口自然增长数据进行仿真分析,研究结果表明:贝叶斯方法能够有效地识别ARMA序列的异常点.  相似文献   

2.
随着大数据时代的到来,在经济学、金融学和生物医学等众多研究领域中频繁收集到高维数据.高维数据的特征之一是变量维数p随着样本量n的增加而变大且通常会超过样本量,同时,异常值也容易出现在高维数据中.因此,如何克服异常值给高维统计推断带来的影响,从而得到更精确的模型,是目前统计学研究的热点问题之一.本文是对高维线性模型下的稳健变量选择方法进行综述.具体地,首先介绍评估稳健性的三个指标:影响函数、崩溃点和最大偏差.其次着重介绍了稳健变量选择方法,包括响应变量含有异常值,响应变量和协变量都含有异常值,高崩溃点且高效的变量选择方法.紧接着介绍相关算法,通过模拟和实例比较不同变量选择方法.最后,简要探讨了高维稳健有效变量选择方法存在的问题及未来的可能发展方向.  相似文献   

3.
回归模型一般采取传统的最小二乘估计(LSE)方法,然而当数据包含非正态特征或异常值时该估计方法会导致不稳健的参数估计.与LSE方法相比,即使出现非正态误差或异常数据,复合分位回归(CQR)方法也能提供更稳健的估计结果.基于复合反对称拉普拉斯分布(CALD),本文提出了贝叶斯框架下的加权复合分量回归(WCQR)方法.正则化方法已经被验证可以有效处理高维稀疏回归模型,它可以同时进行变量选择和参数估计.本文结合贝叶斯LASSO正则化方法和WCQR方法来拟合线性回归模型,建立了 WCQR的贝叶斯LASSO正则化分层模型,并导出了所有参数的条件后验分布以进行统计推断.最后,通过蒙特卡罗模拟和实际数据分析演示了所提出方法.  相似文献   

4.
针对金融时间序列数据易受外界突发事件干扰而产生连续性异常点的特点,本文首先分析了Chang,Tiao和Chen(1988)~([11])提出的金融时间序列AO型异常点检测法的不稳健性,并对其进行稳健改进得到稳健检测统计量,而且在理论上证明了改进检测统计量的优良性;随后模拟了五种污染率下的时序数据,分别用三种检测法对其中的异常点进行检测,发现稳健检测法准确率最高;最后用R语言对上海黄金交易所2008年1月2日至2013年3月29日含金量为99.99%的黄金交易收益率的异常现象进行稳健检测,结果显示本文提出的稳健检测法比传统的检测法对异常点检测能力显著提高,并且能更好的捕捉到我国金融市场的异常特点。该方法不仅对于金融风险的研究具有理论上的意义而且对金融时间序列的稳健建模具有一定的参考价值。  相似文献   

5.
随着信息技术的高速发展,每条数据所包含的信息越来越丰富,使得数据不可避免地含有异常值,且随着维数的增加,异常值出现的可能性更大。传统的主成分聚类分析对异常值特別敏感,基于MCD估计的主成分聚类方法虽然对异常值具有防御作用,但是在高维数据下MCD估计的偏差过大,其稳健性显著降低,而且当维数大于观测值个数时MCD估计失效。为此本文提出了基于MRCD估计的稳健主成分聚类方法,数值模拟和实证分析表明,基于MRCD估计的主成分聚类分析的效果优于传统的主成分聚类分析和基于MCD估计的主成分聚类分析,尤其是在维数大于样本观测值的情况下,MRCD估计更为有效。  相似文献   

6.
本文主要研究大数据集下利用杠杆值抽样后的异常点诊断问题。首先讨论了数据删除模型中参数估计的统计性质,构造了四种异常点诊断统计量;其次,根据均值漂移模型的漂移参数的假设检验问题,构造了三种检验统计量;最后,通过模拟和实证数据分析结果得出本文的结论—异常点诊断对于基于杠杆值的大数据集抽样估计起到重要的影响作用。  相似文献   

7.
因子分析是常用的多元统计分析方法之一,其思想是根据变量间的相关关系求出少数几个主因子,利用这些主因子描述原始变量。传统因子分析方法具有不稳健性,如果数据存在离群值会得到不合理的结果。虽然基于MCD估计的稳健因子分析具有良好的抗干扰性,但是MCD估计的精度会随着维数的增加而不断降低,在维数大于样本量的情形下,该方法甚至会失去有效性。为了对高维数据进行有效的因子分析,本文提出基于MRCD估计的高维稳健因子分析方法。模拟分析的结果表明,在高维数据下,相较于传统因子分析以及MCD稳健因子分析,MRCD高维稳健因子分析能够很好地抵抗离群值的影响,得出更为合理的结论。本文在实证分析部分对11个沿海省份进行研究,结果显示MRCD高维稳健因子模型能够有效地得出高维数据的因子分析结果;沿海各省份经济增长质量发展不平衡,上海、广东经济增长质量发展得较好。  相似文献   

8.
针对包含多个正常类的多元数据异常检测问题,提出了一种基于多分类马田系统的半监督数据异常检测方法.通过对训练数据集中的每个正常类分别建立马氏空间,构建了基于马氏距离的多类测量尺度,方法对测试数据集中正常数据进行分类的同时,能够实现对异常数据的检测.通过模拟带异常值的高斯混合模型数据验证了该方法的有效性.  相似文献   

9.
在大数据背景下,高维资产组合的构造以及选择是金融领域研究的热点和难点问题.文章构造了基于SCGARCH模型的含有范数约束的高维时变最小方差投资组合模型,将其记为NC-MVP-SCGARCH.该组合的优势主要体现在两方面:首先采用SCGARCH模型来估计和预测组合的重要输入变量——资产间的协方差阵,该模型将改进的乔列斯基分解法和卡尔曼滤波估计方法相结合,在解决了高维数据所面临的维数诅咒的同时,考虑了过去市场信息对协方差阵估计的影响;其次,基于范数约束的最小方差投资组合(NC-MVP)将l1和l2范数有机结合,更加适用于高维资产.研究发现:文章构造的NC-MVP-SCGARCH组合效果更优.  相似文献   

10.
本文,我们结合统计过程控制方法,使用一种新的统计量用于在样本数量不充足的情况下监测高维数据。统计量利用样本协方差规范化技术避免协方差矩阵的奇异性,同时采用软阈值技术来挑选多维数据中重要的维度进行监测以减少监测噪音。本文在提出统计量后用matlab随机产生各种维度的高维数据样本进行仿真分析,并将该统计量与基于Hotelling T~2并采取广义逆矩阵的统计量进行比较。结果表明,本文使用的统计量的监测效果优于采取广义逆矩阵的方法。本文提出的方法可以应用于多指标产品生产的快速异常检测,特别是难以得到大量检测数据的产品,如检测需要破坏产品本身或者检测成本太高的产品。  相似文献   

11.
高质量的决策越来越依赖于高质量的数据挖掘及其分析,高质量的数据挖掘离不开高质量的数据.在大型仪器利用情况调查中,由于主客观因素,总是致使有些数据出现异常,影响数据的质量.这就需要通过适用的方法对异常数据进行检测处理.不同类型数据往往需要不同的异常值检测方法.分析了大型仪器利用情况调查数据的总体特点、一般方法,并以国家科技部平台中心主持的"我国大型仪器资源现状调查"(2009)中大型仪器使用机时和共享机时数据为主线,比较研究了回归方法、基于深度的方法和箱线图方法等对不同类型数据异常值检测的适用性.选取不同角度,检验并采用不同的适用方法,找出相关的可疑异常值,有助于下一步有效开展大型仪器利用情况异常数据的分析处理,提高数据质量,为大型仪器利用情况综合评价奠定基础,也为科技资源调查数据预处理中异常值检测方法提供有益借鉴.  相似文献   

12.
陈丙振  孔令臣  尚盼 《计算数学》2018,40(4):402-417
随着大数据时代的到来,我们面临的数据越来越复杂,其中待估系数为矩阵的模型亟待构造和求解.无论在统计还是优化领域,许多专家学者都致力于矩阵模型的统计性质分析及寻找其最优解的算法设计.当随机误差期望为0且同方差时,采用基于最小二乘的模型可以很好地解决问题.当随机误差异方差,分布为重尾分布(如双指数分布,t-分布等)或数据含有异常值时,需要考虑稳健的方法来求解问题.常用的稳健方法有最小一乘,分位数,Huber等.目前稳健方法的研究大多集中于线性回归问题,对于矩阵回归问题的研究比较缺乏.本文从最小二乘模型讲起,对矩阵回归问题进行了总结和评述,同时列出了一些文献和简要介绍了我们的近期的部分工作.最后对于稳健矩阵回归,我们提出了一些展望和设想.  相似文献   

13.
基于L1-回归定义了一个稳健的残差自相关函数 .在非常一般的条件下 ,获得了这个稳健的残差自相关的渐近分布 .然后 ,构造了一个稳健的多用途 ( port manteau)统计量 ,它能用于L1-范数拟合的AR( p)模型的拟合优度检验 .经验结果表明 ,对一给定的容量有限样本 ,L1-范数估计和所提出的多用途统计量对异常值、误差分布和精度是稳健的  相似文献   

14.
GARCH(1,1)模型的稳健估计比较及应用   总被引:1,自引:0,他引:1  
首先阐述了GARCH(1,1)模型稳健估计的构造方法,然后在模型有无异常值扩散效应约束和异常值比例不同的情况下,比较了传统QMLE估计和多种稳健M估计的表现,结果表明:在数据无异常值下,QMLE估计较优;随着异常值比例增加,稳健Andrew估计表现更好;模型施加异常值扩散效应约束对估计有一定改善但不显著.最后选取波动程度不同的两个阶段沪深300指数的收益率,用模型拟合进行了实例比较,在波动程度较大时,Andrew估计效果较优,在波动相对平稳时,LAD估计较优.  相似文献   

15.
本文在研究多因素数据重心法的基础上,进一步提出滑动数据重心预测方法,该方法是对原始样本数据提出了一种新的数据处理方法,大大降低了由于历史数据组中的异常点对预测结果产生的破坏性。通过建立我国钢材消费量与国内生产总值(GDP)的计量动态模型对该方法与多因素数据重心预测法进行对比研究。同时利用时间序列自回归AR(p)对计量动态模型的初级预测结果进行差值校正,并将该方法应用于我国2015年、2020年的钢材消费量预测。对比研究表明该方法使得预测结果更加精确、稳健。  相似文献   

16.
高维协方差矩阵在经济、金融、生物等众多领域中有着广泛应用.基于收缩估计模型,构造样本协方差矩阵与因子模型协方差矩阵的凸线性组合,通过对因子模型的改进来提高模型估计精度.在构造因子模型时,引入因子选择准则(pcp3(k))来确定因子个数:在确定最优权重α时,使用基于MSE(S)分解的思想求解.通过数据验证发现,相较于传统方法,提升了协方差矩阵估计精确性;在构造投资组合模型时,也可以有效降低投资风险.  相似文献   

17.
针对传统DBSCAN算法对高维数据集聚类效果不佳且参数的选取敏感问题,提出一种新的基于相似性度量的改进DBSCAN算法.该算法构造了测地距离和共享最近邻的数据点之间的相似度矩阵,克服欧式距离对高维数据的局限性,更好地刻画数据集的真实情况.通过分析数据的分布特征来自适应确定Eps和MinPts参数.实验结果表明,所提GS-DBSCAN算法能够有效地对复杂分布的数据进行聚类,且在高维数据的聚类准确率高于对比算法,验证了算法的准确性和可行性.  相似文献   

18.
在处理高维数据的线状奇异性时,剪切波能有效克服小波的不足而成为当前研究热点.给出了两种具有紧支撑和任意伸缩因子的剪切波紧框架构造方法.一种是利用已知的带限小波构造.另一种是利用具有两尺度关系的小波构造.最后,基于已构造出的4带小波,用给出的方法成功地构造出了相应的剪切波紧框架.  相似文献   

19.
韩忠成  林金官 《应用数学》2019,32(2):479-485
非参数模型是统计学中常用的一类模型.在实际应用中,回归函数可能不是连续的,即在某些未知的位置上存在跳点.检测这些跳点对于回归函数的估计非常重要.本文基于B样条和众数估计,提出一个稳健跳点检测方法.然后利用检测出的跳点给出了回归函数的稳健有效估计量,并讨论了参数的选择.数值模拟和实例分析验证了所提方法在有限样本下的表现.  相似文献   

20.
时空数据经常含有奇异点或来自重尾分布,此时基于最小二乘的估计方法效果欠佳,需要更稳健的估计方法.本文提出时空模型的基于局部众数(local modal, LM)的局部线性估计方法.理论和数据分析结果都显示,若数据含有奇异点或来自重尾分布,基于局部众数的局部线性方法比基于最小二乘的局部线性方法有效;若数据无奇异点且来自正态分布,两种方法效率渐近一致.本文采用众数期望最大化(modal expectation-maximization, MEM)算法,并在数据相依情形下得出估计量的渐近正态性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号