共查询到20条相似文献,搜索用时 9 毫秒
1.
《数理统计与管理》2019,(2):235-246
零膨胀计数数据是当今数据分析的热点问题之一,该类数据的特点是零点过多,目前对这类数据的研究已经比较全面。另外还有些计数数据不仅会出现零点过多的现象,也会同时存在零、一点都过多的情形,如果再用零膨胀计数数据的统计方法去研究,产生的误差较大。目前国内外对零和一都膨胀的数据的研究还比较少,针对这种现象,本文引入零一膨胀泊松回归模型,并用局部多项式核回归法这种非参数统计分析方法对零一膨胀泊松回归模型进行参数估计,这是本文的创新点也是难点,并在求解参数的过程中引进了EM算法和Newton-Raphson迭代对参数近似求解。通过模拟结果可以得出此方法的可行性,最后通过对糖尿病患者数据的实例分析,可以验证此方法的有效性。 相似文献
2.
3.
混合时空地理加权回归模型作为一种有效处理空间数据全局平稳和局部非平稳的分析方法得到了广泛的应用.但其参数估计方法中假定固定系数变量已知且不存在时空效应,这一较强的前提使回归系数的估计值变得极不稳定.为探究当固定系数变量存在时空效应时的参数估计方法,本文提出一种变量选择(Variable Selection)方法来剔除指标间的交互效应,并给出相应的算法过程.通过乌鲁木齐市商品住宅真实价格数据对不同估计方法进行对比验证,结果表明,利用变量选择方法后得到的MGTWR模型性能和拟合效果得到提升,固定回归系数的估计更加稳定,原有参数估计方法得到改善. 相似文献
4.
5.
6.
在多元线性回归中,变量选择紧密依赖模型,与影响数据密切相关。本文从模型扰动的角度,研究了变量选择与数据的关系,用微分几何中的概念,提出了用曲线的变化率、加速率及其曲率三种量测,去评价数据对变量选择的影响,从而诊断影响数据。文中给出的数值例子表明,所提影响量测,对于诊断数据对变量选择的影响是有效的。 相似文献
7.
结核病的传播过程比较复杂,易感人群在受到结核病菌传染后可能会患上结核病或结核性胸膜炎,前者具有传染性,而后者暂时不具有传染性,但可能又会发展成结核病,具有传染性.为了探讨结核病的影响因素,利用对角膨胀双变量Poisson回归模型,将受结核病菌传染所发生的结核病患者数和结核性胸膜炎患者数作为模型中的2维响应变量,拟合D市在校学生受结核病菌传染的患病数据.计算结果表明:结核病患者与结核性胸膜炎患者不具有相关性;强阳率、痰菌检验阳性状态、宿舍密度、季节与通风状态差等因素是对结核病的影响因素,数据拟合效果较好,为对结核病的预防工作提供参考依据. 相似文献
8.
为避免模型出现过拟合,将自适应LASSO变量选择方法引入二元选择分位回归模型,利用贝叶斯方法构建Gibbs抽样算法并在抽样中设置不影响预测结果的约束条件‖β‖=1以提高抽样值的稳定性.通过数值模拟,表明改进的模型有更为良好的参数估计效率、变量选择功能和分类能力. 相似文献
9.
10.
在回归分析中,当因变量存在双侧截断时,已有的统计方法会使得回归模型的系数估计与变量选择产生偏差.本文提出一种适用于双侧截断回归模型的系数估计与变量选择方法,且该方法允许回归模型中自变量的个数随着样本量增大并趋于无穷而趋于无穷.该方法的主要思想是,提出一种Mann-Whitney型的损失函数来进行纠偏,随后加入自适应最小绝对收缩和选择算子(least absolute shrinkage and selection operator, LASSO)惩罚项来进行变量选择.本文同时设计一种迭代算法来实现损失函数的优化;且证明了所提出估计量的相合性与渐近正态性,还给出所提出变量选择方法的神谕性(oracle property).本文通过随机模拟展示所提出方法在有限样本量下的表现,并使用所提出方法分析一个天文学领域的实际数据集. 相似文献
11.
生长曲线模型是一个典型的多元线性模型,
在现代统计学上占有重要地位. 文章首先基于Potthoff-Roy变换后的生长曲线模型,
采用自适应LASSO为惩罚函数给出了参数矩阵的惩罚最小二乘估计,
实现了变量的选择. 其次, 基于局部渐近二次估计,
对生长曲线模型的惩罚最小二乘估计给出了统一的近似估计表达式. 接着,
讨论了经过Potthoff-Roy变换后模型的惩罚最小二乘估计,
证明了自适应LASSO具有Oracle性质. 最后对几种变量选择方法进行了数据模拟.
结果表明自适应LASSO效果比较好. 另外, 综合考虑,
Potthoff-Roy变换优于拉直变换. 相似文献
12.
零膨胀广义泊松回归模型与保险费率厘定 总被引:1,自引:0,他引:1
在保险产品的分类费率厘定中,最常使用的模型之一是泊松回归模型.当损失数据存在零膨胀(zero-in flated)特征时,通常会采用零膨胀泊松回归模型.在零膨胀泊松回归模型中,一般假设结构零的比例参数φ为常数,不受费率因子的影响,这有可能背离实际情况.假设参数φ与费率因子之间存在一定关系,并在此基础上建立了零膨胀广义泊松回归模型,即Z IGP(τ)回归模型.通过对一组汽车保险损失数据的拟合表明,Z IGP(τ)回归模型可以有效地改善对实际数据的拟合效果,从而提高费率厘定结果的合理性. 相似文献
13.
泊松计数方法作为估计敏感性特征的比例的方法,克服了项目计数方法泄露被调查隐私的缺陷。但是很多实际问题中,我们关心的不仅是敏感性特征的比例,更加感兴趣的是敏感性特征比例与协变量之间的关系。本文将提出基于泊松计数方法的回归模型,研究敏感性特征比例与协变量之间的相关性。我们给出了如何用EM算法和QLB算法求回归系数的极大似然估计。并且,我们搜集了399位被调查者关于美国车险理赔中的欺诈的行为以及关于驾驶习惯的协变量,并用我们的泊松计数回归模型进行研究,得到有用的信息。 相似文献
14.
本文研究测量误差模型的自适应LASSO(least absolute shrinkage and selection operator)变量选择和系数估计问题.首先分别给出协变量有测量误差时的线性模型和部分线性模型自适应LASSO参数估计量,在一些正则条件下研究估计量的渐近性质,并且证明选择合适的调整参数,自适应LASSO参数估计量具有oracle性质.其次讨论估计的实现算法及惩罚参数和光滑参数的选择问题.最后通过模拟和一个实际数据分析研究了自适应LASSO变量选择方法的表现,结果表明,变量选择和参数估计效果良好. 相似文献
15.
柳长青 《数学的实践与认识》2014,(7)
在模型的协变量含有测量误差的情况下,考虑一类泊松回归模型的统计推断问题.通过巧妙地构造辅助随机向量,提出一个工具变量类型的经验似然统计推断方法.证明构造的经验对数似然比函数渐近服从标准卡方分布,进而给出了回归系数的置信区间.所提出的估计方法可以有效地消除测量误差对估计精度的影响,并且具有较好的有限样本性质. 相似文献
16.
随着大数据时代的到来,在经济学、金融学和生物医学等众多研究领域中频繁收集到高维数据.高维数据的特征之一是变量维数p随着样本量n的增加而变大且通常会超过样本量,同时,异常值也容易出现在高维数据中.因此,如何克服异常值给高维统计推断带来的影响,从而得到更精确的模型,是目前统计学研究的热点问题之一.本文是对高维线性模型下的稳健变量选择方法进行综述.具体地,首先介绍评估稳健性的三个指标:影响函数、崩溃点和最大偏差.其次着重介绍了稳健变量选择方法,包括响应变量含有异常值,响应变量和协变量都含有异常值,高崩溃点且高效的变量选择方法.紧接着介绍相关算法,通过模拟和实例比较不同变量选择方法.最后,简要探讨了高维稳健有效变量选择方法存在的问题及未来的可能发展方向. 相似文献
17.
18.
19.