首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
在使用变量选择方法选出模型后,如何评价模型中变量系数的显著性是统计学重点关注的前沿问题之一.文章从适应性Lasso变量选择方法的选择结果出发,在考虑实践中误差分布多样性的前提下,基于选择事件构造了模型保留变量系数的条件检验统计量,并给出了该统计量的一致收敛性质的证明过程.模拟研究显示,在多种误差分布下所提方法均可进一步优化变量选择结果,有较强的实用价值.应用此方法对CEPS学生数据进行了实证分析,最终选取了学生认知能力等10个变量作为影响中学生成绩的主要因素,为相关研究提供了有益的参考.  相似文献   

2.
本文在贝叶斯框架下考虑现状数据比例风险模型的变量选择问题。首先构造基于spike and slab先验,运用二元潜变量标记活跃协变量,给出满条件分布及相应的Gibbs抽样算法。数值模拟比较了该方法与Lasso、SCAD和ALasso方法,结果表明该方法模型正确识别率高。实例选用Ⅱ型糖尿病患者心脏衰竭数据,分析选择出最显著的影响因素,验证了该方法的有效性。  相似文献   

3.
两部分潜变量模型是一种被广泛用于探索半连续数据中不可观测异质性的统计方法.文章对两部分潜变量建立变分贝叶斯推断程序.相比于马尔可夫链蒙特卡洛(MCMC)抽样方法,变分贝叶斯方法具有计算速度快、可提供确定性解等优点.利用Logistic模型一个随机表示,构造了一个适当的变分分布族来近似后验.变分分布通过坐标上升变分算法获得;给出了变分参数的更新计划,建立了变量选择和模型评价贝叶斯程序.经验结果展示了该方法的有效性和实用价值.  相似文献   

4.
个人信用评价问题研究中,需要建立较多的虚拟变量作为解释变量.Group Lasso可以将相关的虚拟变量作为组进行整体剔除或保留在模型中.结合具体的个人信贷数据,应用Group Lasso方法进行变量选择建立Logistic模型,并与全模型、向前选择和向后选择建立的Logistic模型进行比较,发现Group Lasso方法建立的模型,在变量解释和预测正确率上,都是最优的.  相似文献   

5.
赵培信  杨宜平 《应用数学》2015,28(1):165-171
利用一些辅助信息作为工具变量并结合光滑门限估计方程(SEE)方法,针对协变量含有测量误差广义线性模型提出一个工具变量类型的变量选择方法.该方法可以在估计模型中非零回归系数的同时,剔除模型中不显著的协变量,从而达到变量选择的目的.另外,该变量选择过程不需要求解任何凸优化问题,从而具有较强的适应性并且在实际应用比较容易计算.理论证明该变量选择方法是相合的,并且对非零回归系数的估计达到了最优的参数收敛速度.数值模拟结果表明所提出的变量选择方法可以有效地消除测量误差对估计精度的影响,并且具有较好的有限样本性质.  相似文献   

6.
考虑高维部分线性模型,提出了同时进行变量选择和估计兴趣参数的变量选择方法.将Dantzig变量选择应用到线性部分及非参数部分的各阶导数,从而获得参数和非参数部分的估计,且参数部分的估计具有稀疏性,证明了估计的非渐近理论界.最后,模拟研究了有限样本的性质.  相似文献   

7.
从弹性网(Elastic net)方法所选择的模型出发,构造基于模型选择条件下的系数的精确分布,并通过分布进行推断从而得到检验系数显著性的p值及模型系数的置信区间等.通过方法可对传统弹性网方法所选模型做进一步调整,模拟研究说明了本文所提方法在变量选择中的适用性。如对噪声变量有较强的识别能力等.在实证分析中,使用基于变量选择事件的弹性网方法对我国劳动者工资收入的影响原因进行了筛选,分析表明在传统弹性网方法选取的解释变量中,宗教活动频率、工龄、身体健康程度以及个体身高不是影响劳动收入的最主要原因,可依据实际情况剔除这些变量,减少研究成本且提高分析效率,在实际应用中有一定的参考价值.  相似文献   

8.
针对高维强相关数据的变量选择问题,本文提出了改进的变量选择方法.该方法先利用自适应弹性网方法(Aenet)在原始的强相关数据上建立模型,选出对响应变量起重要作用的群组变量和独立变量;再通过偏最小二乘方法(PLS)对选出的变量作模型估计;最后,将两种方法得到的估计系数做线性组合,并以此系数来建立回归模型.新模型具有精度高、解释性好的优点,数值实验验证了该方法的有效性.  相似文献   

9.
随着大数据时代的到来,在经济学、金融学和生物医学等众多研究领域中频繁收集到高维数据.高维数据的特征之一是变量维数p随着样本量n的增加而变大且通常会超过样本量,同时,异常值也容易出现在高维数据中.因此,如何克服异常值给高维统计推断带来的影响,从而得到更精确的模型,是目前统计学研究的热点问题之一.本文是对高维线性模型下的稳健变量选择方法进行综述.具体地,首先介绍评估稳健性的三个指标:影响函数、崩溃点和最大偏差.其次着重介绍了稳健变量选择方法,包括响应变量含有异常值,响应变量和协变量都含有异常值,高崩溃点且高效的变量选择方法.紧接着介绍相关算法,通过模拟和实例比较不同变量选择方法.最后,简要探讨了高维稳健有效变量选择方法存在的问题及未来的可能发展方向.  相似文献   

10.
本文在多种复杂数据下, 研究一类半参数变系数部分线性模型的统计推断理论和方法. 首先在纵向数据和测量误差数据等复杂数据下, 研究半参数变系数部分线性模型的经验似然推断问题, 分别提出分组的和纠偏的经验似然方法. 该方法可以有效地处理纵向数据的组内相关性给构造经验似然比函数所带来的困难. 其次在测量误差数据和缺失数据等复杂数据下, 研究模型的变量选择问题, 分别提出一个“纠偏” 的和基于借补值的变量选择方法. 该变量选择方法可以同时选择参数分量及非参数分量中的重要变量, 并且变量选择与回归系数的估计同时进行. 通过选择适当的惩罚参数, 证明该变量选择方法可以相合地识别出真实模型, 并且所得的正则估计具有oracle 性质.  相似文献   

11.
基于多重共线性的处理方法   总被引:2,自引:0,他引:2  
多重共线性简称共线性是多元线性回归分析中一个重要问题。消除共线性的危害一直是回归分析的一个重点。目前处理严重共线性的常用方法有以下几种:岭回归、主成分回归、逐步回归、偏最小二乘法、Lasso回归等。本文就这几种方法进行比较分析,介绍它们的优缺点,通过实例分析以便于选择合适的方法处理共线性。  相似文献   

12.
In this study, in addition to the formula of regression sum of squares (SSR) in linear regression, a general formula of SSR in multiple linear regression is given. The derivations of the formula presented are given step by step. This new formula is proposed for estimation of the SSR in multiple linear regression. By using this formula, the researcher can find easily SSR and so the researcher can compose easily the table of variance analysis to interpret the regression made.  相似文献   

13.
计数数据往往存在过离散(over-dispersed)即方差大于均值特征,若利用传统的泊松回归模型拟合数据往往会导致其参数的标准误差被低估,显著性水平被高估的错误结论。负二项回归模型、广义泊松回归模型通常被用来处理过离散特征数据。本文以两类广义泊松回归模型GP-1和GP-2模型为基础,将其推广为更为一般的GP-P形式,其中P为参数。此时,P=1或P=2,GP-P模型就退化为GP-1和GP-2模型。文中最后利用此类推广的GP-P模型处理了一组医疗保险数据,并与泊松回归模型、负二项回归模型拟合结果进行了比较。结果表明,推广后的GP-P模型的拟合效果更优。  相似文献   

14.
本文通过例子介绍多元线性回归中自变量共线性的诊断以及使用 SAS/SATA( 6.12 )软件中的 REG等过程的增强功能处理回归变量共线性的一些方法。包括筛选变量法 ,岭回归分析法 ,主成分回归法和偏最小二乘回归法  相似文献   

15.
本文运用协整分析、线性回归、logistic回归等定量分析方法,采用1973~2003年的历史数据,对安徽省农业生产资料价格波动与农业总产值的影响关系进行了深入的实证分析,发现了两者之间存在的一些内在联系和制约关系,并给出了反映两者关系的预测模型。  相似文献   

16.
对现象之间客观存在的因果关系建立回归分析模型,这是实际中较为普遍的做法.在这篇文章中,我们根据MULTIVARIATE回归分析的基本原理,利用从生产现场采集的观测数据,对产品两个质量特性及其五个关键影响因素之间的关系建立了多重多元回归分析方程,为说明MULTIVARIATE回归应用的可行性,我们还结合实例给出了因变量向量估计的两种形式,以及无条件预报的置信区间。  相似文献   

17.
In this paper, by using the Brouwer fixed point theorem, we consider the existence and uniqueness of the solution for local linear regression with variable window breadth.  相似文献   

18.
Abstract

An updating algorithm for bivariate local linear regression is proposed. Thereby, we assume a rectangular design and a polynomial kernel constrained to rectangular support as weight function. Results of univariate regression estimators are extended to the bivariate setting. The updates are performed in a way that most of the well-known numerical instabilities of a naive update implementation can be avoided. Some simulation results illustrate the properties of several algorithms with respect to computing time and numerical stability.  相似文献   

19.
An open challenge in nonparametric regression is finding fast, computationally efficient approaches to estimating local bandwidths for large datasets, in particular in two or more dimensions. In the work presented here, we introduce a novel local bandwidth estimation procedure for local polynomial regression, which combines the greedy search of the regularization of the derivative expectation operator (RODEO) algorithm with linear binning. The result is a fast, computationally efficient algorithm, which we refer to as the fast RODEO. We motivate the development of our algorithm by using a novel scale-space approach to derive the RODEO. We conclude with a toy example and a real-world example using data from the Cloud-Aerosol Lidar and Infrared Pathfinder Satellite Observation (CALIPSO) satellite validation study, where we show the fast RODEO’s improvement in accuracy and computational speed over two other standard approaches.  相似文献   

20.
In this paper we propose a cross-validation selection criterion to determine asymptotically the correct model among the family of all possible partially linear models when the underlying model is a partially linear model. We establish the asymptotic consistency of the criterion. In addition, the criterion is illustrated using two real sets of data.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号