首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 46 毫秒
1.
利用正则化方法来进行变量选择是近年来研究的热点.在实际应用中解释变量常常以组的形式存在,通常我们希望将重要的组和组内重要的协变量选择出来,即双重变量选择.基于两种非凸惩罚函数SCAD和MCP,分别提出了稀疏Group SCAD和稀疏Group MCP估计方法,通过分块坐标下降迭代算法,达到组内和组间变量同时稀疏的效果.数值模拟结果表明本文提出的两种方法在模型预测和变量选择能力上优于Group Lasso和稀疏Group Lasso算法.并将该算法有效地应用于实际的初生儿体重数据集分析中.  相似文献   

2.
个人信用评价问题研究中,需要建立较多的虚拟变量作为解释变量.Group Lasso可以将相关的虚拟变量作为组进行整体剔除或保留在模型中.结合具体的个人信贷数据,应用Group Lasso方法进行变量选择建立Logistic模型,并与全模型、向前选择和向后选择建立的Logistic模型进行比较,发现Group Lasso方法建立的模型,在变量解释和预测正确率上,都是最优的.  相似文献   

3.
当前上市公司信用风险数据所呈现出的高维度以及高相关性的特点严重影响了信用风险模型的准确性。为此本文结合已有算法以及信用风险模型的特点设计了一种新的基于非参数的变量选择方法。通过该方法对上市公司用风险相关变量进行分析筛选可以消除数据集中包含的噪声变量以及线性相关变量。本文同时还针对该方法设计了高变量维度下最优解求解算法。文章以Logistic模型为例对上市公司信用风险做了实证分析,研究结果表明与以往的变量选择方法相比该方法可以有效的降低数据维度,消除变量间的相关性,并同时提高模型的可靠性和预测精度。  相似文献   

4.
我国人口时间序列的变系数预测模型   总被引:1,自引:0,他引:1  
根据1952-2005年我国人口总量和GDP总量数据,建立变系数模型.采用逐步回归的方法来选择显著滞后变量子集,推导出系数函数的样条估计表达式,最后运用Bootstrap思想,进行点预测和区间预测。运算结果表明:对于该组数据,变系数模型能较理想地描述数据之间的内在结构,且具有较少的预测误差.  相似文献   

5.
纵向数据常常用正态混合效应模型进行分析.然而,违背正态性的假定往往会导致无效的推断.与传统的均值回归相比较,分位回归可以给出响应变量条件分布的完整刻画,对于非正态误差分布也可以给稳健的估计结果.本文主要考虑右删失响应下纵向混合效应模型的分位回归估计和变量选择问题.首先,逆删失概率加权方法被用来得到模型的参数估计.其次,结合逆删失概率加权和LASSO惩罚变量选择方法考虑了模型的变量选择问题.蒙特卡洛模拟显示所提方法要比直接删除删失数据的估计方法更具优势.最后,分析了一组艾滋病数据集来展示所提方法的实际应用效果.  相似文献   

6.
钢材力学性能的提高对于提高钢材品质,充分适应市场需求有重要的意义.研究了热轧带钢的抗拉强度与各生产参数和工艺参数之间的关系,采用基于LASSO的复合分位数回归模型(Composite Quantile Regression,CQR),根据BIC准则选择合适的调整参数,选择出15个有重要影响的变量,建立基于这15个变量的预测模型.结果表明,将数据按70%和30%分成训练集和测试集,得到训练集的百分比误差(MAPE)和均方根误差(RMSE)分别为2.61%和23.42,测试集的百分比误差(MAPE)和均方根误差(RMSE)分别为2.58%和22.52.将本文所用的模型与两种不同的变量选择方法和三种不同的预测模型进行了对比,可得本文中所用的模型计算精度高,模型泛化能力强,为钢产品的设计和优化提供参考.  相似文献   

7.
随着大数据时代的到来,在经济学、金融学和生物医学等众多研究领域中频繁收集到高维数据.高维数据的特征之一是变量维数p随着样本量n的增加而变大且通常会超过样本量,同时,异常值也容易出现在高维数据中.因此,如何克服异常值给高维统计推断带来的影响,从而得到更精确的模型,是目前统计学研究的热点问题之一.本文是对高维线性模型下的稳健变量选择方法进行综述.具体地,首先介绍评估稳健性的三个指标:影响函数、崩溃点和最大偏差.其次着重介绍了稳健变量选择方法,包括响应变量含有异常值,响应变量和协变量都含有异常值,高崩溃点且高效的变量选择方法.紧接着介绍相关算法,通过模拟和实例比较不同变量选择方法.最后,简要探讨了高维稳健有效变量选择方法存在的问题及未来的可能发展方向.  相似文献   

8.
随着我国足球博彩产业的发展,与足球赛事相关的数据分析和统计工作也越来越受重视.通过双变量Poisson模型及其拓展的几种对角膨胀模型来拟合2015赛季中超联赛各场比赛进球数据.结果表明只用双变量Poisson模型不能很好拟合比赛进球得分数据,用对角膨胀双变量Poisson模型能较好估计各支球队在整个赛季过程中主场和客场的进攻和防守实力,预测每场比赛进球数,提高模型拟合度,并且解决了以往模型在预测低比分或高比分平局时出现的偏差.因此,对角膨胀双变量Poisson回归模型适用性强,对预测足球等项目比赛的进球数是较好的模型.  相似文献   

9.
来源于不同总体的数据异质性较大,数据“零取值”较多且离散度大,可利用零膨胀泊松(ZIP)混合回归模型建模分析,然而混合模型中自变量较多.为了筛选出重要变量,本文利用自适应LASSO对ZIP混合回归模型进行变量选择,即在似然函数中加入惩罚项,再利用EM算法估计参数.通过模拟,验证了该方法在变量选择和参数估计中的有效性.同时,将ZIP混合回归模型应用于预测借贷失败次数的实际数据分析,筛选出对借贷失败有重要影响的因素.最后,通过比较各模型的预测效果,得到ZIP混合回归模型优于泊松(Poisson),负二项(NB)和ZIP回归模型.  相似文献   

10.
传统函数型回归模型变量选择方法,忽略了对稀疏函数型数据的讨论.提出了稀疏函数型数据情形下函数型回归模型的变量选择方法,基于条件期望对稀疏函数型自变量进行函数型主成分分析,并以估计的正交特征函数作为基函数对模型进行展开.这种方法可以有效解决对稀疏函数型变量的选择.作为实证分析,选取2002年到2011年全国34个气象观测站的年降水量,月度平均气温,光照时长,湿度,最高气温和最低气温数据,分别比较讨论了密集和稀疏情形下,原始样本和Bootstrap样本的函数型回归模型变量选择的结果,结果显示新方法具有较好的选择效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号