首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
半参数再生散度模型是再生散度模型和半参数回归模型的推广,包括了半参数广义线性模型和广义部分线性模型等特殊类型.讨论的是该模型在响应变量和协变量均存在非随机缺失数据情形下参数的Bayes估计和基于Bayes因子的模型选择问题.在分析中,采用了惩罚样条来估计模型中的非参数成分,并建立了Bayes层次模型;为了解决Gibbs抽样过程中因参数高度相关带来的混合性差以及因维数增加导致出现不稳定性的问题,引入了潜变量做为添加数据并应用了压缩Gibbs抽样方法,改进了收敛性;同时,为了避免计算多重积分,利用了M-H算法估计边缘密度函数后计算Bayes因子,为模型的选择比较提供了一种准则.最后,通过模拟和实例验证了所给方法的有效性.  相似文献   

2.
广义部分线性模型是广义线性模型和部分线性模型的推广,是一种应用广泛的半参数模型.本文讨论的是该模型在线性协变量和响应变量均存在非随机缺失数据情形下参数的Bayes估计和基于Bayes因子的模型选择问题,在分析过程中,采用了惩罚样条来估计模型中的非参数成分,并建立了Bayes层次模型;为了解决Gibbs抽样过程中因参数高度相关带来的混合性差以及因维数增加导致出现不稳定性的问题,引入了潜变量做为添加数据并应用了压缩Gibbs抽样方法,改进了收敛性;同时,为了避免计算多重积分,利用了M-H算法估计边缘密度函数后计算Bayes因子,为模型的选择比较提供了一种准则.最后,通过模拟和实例验证了所给方法的有效性.  相似文献   

3.
为避免模型出现过拟合,将自适应LASSO变量选择方法引入二元选择分位回归模型,利用贝叶斯方法构建Gibbs抽样算法并在抽样中设置不影响预测结果的约束条件‖β‖=1以提高抽样值的稳定性.通过数值模拟,表明改进的模型有更为良好的参数估计效率、变量选择功能和分类能力.  相似文献   

4.
讨论响应变量带有不可忽略缺失数据的非线性均值方差模型的Bayes估计问题.缺失数据机制由logistic回归模型来指定,运用Gibbs抽样及MH算法得到模型参数和缺失数据机制参数的联合Bayes估计,模拟研究和实例分析展示上述模型和方法的可行性.  相似文献   

5.
函数型数据广泛地存在于社会的各个领域, 函数型数据分析也成为越来越热的统计研究方向. 经典的函数型回归模型一般假设响应变量是一个独立变量, 而在经济学, 环境科学等领域会经常遇到响应变量具有空间相依关系. 因此针对带有空间响应变量的部分函数型空间自回归模型, 基于函数型主成分分析和MCMC算法研究了模型的贝叶斯估计. 运用■表示定理来逼近函数型系数的思想, 以及应用Gibbs抽样和Metropolis-Hastings算法相结合的混合MCMC算法来获得模型中未知参数和函数型系数的贝叶斯估计结果. 最后通过模拟研究和对加拿大气温数据的实证分析来表明所提出的贝叶斯估计方法是可行有效的.  相似文献   

6.
本文考虑超高维部分线性模型,其中线性部分的维数p大于样本量n,且维数p随着样本量n呈指数阶增长.首先,利用半参数回归的profile方法,把超高维部分线性模型转化成超高维线性模型.其次,为了对高维线性分量进行有效的变量筛选,考虑到协变量之间的相关性,结合贪婪算法和向前回归变量筛选方法,针对部分线性模型,提出了profile贪婪向前回归(PGFR)变量筛选方法.在一定正则条件下,证明了所提PGFR方法具有筛选相合性.为了确定所选模型是否能够依概率趋于1包含真实模型,进一步提出了BIC准则.最后,通过模拟研究和实例分析验证了PGFR方法在有限样本下的完成情况.  相似文献   

7.
随着大数据时代的来临,为了提高计算效率,Wang等(2018)提出基于logistic回归的最优子抽样算法,在保证参数估计精度的前提下,节省了大量的运算时间.为解决变量间的多重共线性,文章提出基于岭回归模型的最优子抽样算法,并证明岭回归模型中参数估计的一致性与渐近正态性.利用数值模拟与实证分析对最优子抽样算法进行评估,...  相似文献   

8.
基于蚁群算法的模糊分类系统设计   总被引:1,自引:0,他引:1  
提出了一种基于最大-最小蚁群算法的模糊分类系统设计方法.该方法通过两个阶段来实现:特征变量选择和模型参数优化.首先采用蚁群算法对特征变量进行选择,得到一组具有较高分辩性能的特征变量,提高模型的解释性;在模型结构确定后,蚁群算法从训练样本中提取信息对模型的参数进行优化,在保证模型精确性的前提下,构造具有较少变量数目及规则数目的模糊模型,实现了精确性与解释性的折衷.最后将本方法运用到Iris和Wine数据样本分类问题中,并将结果与其它方法进行比较,仿真结果证明了该方法的有效性.  相似文献   

9.
为了分析健康保险行业中出现的半连续卫生保健费用数据,本文提出一类半参数双重Tweedie复合泊松回归模型.在分析中,首先采用修正鞍点逼近的数值方法去近似Tweedie复合泊松分布的密度函数;其次,利用Gibbs抽样技术和Metropolis-Hastings(MH)算法的混合算法获得了模型参数的联合贝叶斯估计;最后,给出了几个模拟研究以及把这些方法用来分析兰德健康保险实验中的卫生保健费用数据.  相似文献   

10.
针对存在缺失数据的超高维可加分位回归模型,本文提出一种有效的变量筛选方法.具体而言,将典型相关分析的思想引入到最优变换的最大相关系数,通过协变量和模型残差最优变换后的最大相关系数重要变量的边际贡献进行排序,从而进行变量筛选.然后,在筛选的基础上,利用稀疏光滑惩罚进一步做变量选择.所提变量筛选方法有三点优势:(1)基于最优变换的最大相关可以更全面的反映响应变量对协变量的非线性依赖结构;(2)在迭代过程中利用残差可以获取模型的相关信息,从而提高变量筛选的准确度;(3)变量筛选过程和模型估计分开,可以避免对冗余协变量的回归.在适当的条件下,证明了变量筛选方法的确定性独立筛选性质以及稀疏光滑惩罚下估计量的稀疏性和相合性.同时,通过蒙特卡罗模拟给出了所提方法的表现并通过一组小鼠基因数据说明了所提方法的有效性.  相似文献   

11.
Lasso是机器学习中比较常用的一种变量选择方法,适用于具有稀疏性的回归问题.当样本量巨大或者海量的数据存储在不同的机器上时,分布式计算是减少计算时间提高效率的重要方式之一.本文在给出Lasso模型等价优化模型的基础上,将ADMM算法应用到此优化变量可分离的模型中,构造了一种适用于Lasso变量选择的分布式算法,证明了...  相似文献   

12.
现有对回归模型的研究大多仅限于直接观测的解释变量,忽略数据的测量误差将增加模型参数的估计偏差.目前关于测量误差模型的研究主要集中在回归误差服从正态分布的假设,这种假设不适用于研究非对称的数据.对于偏斜数据,众数的代表性优于均值和中位数.本文基于测量误差数据介绍了偏正态众数回归模型,并通过EM算法估计了模型的参数.模拟研究的结果表明,协变量带测量误差下的众数回归比均值回归有更好的表现.通过实例分析进一步表明了所提出模型和方法的有效性.  相似文献   

13.
来源于不同总体的数据异质性较大,数据“零取值”较多且离散度大,可利用零膨胀泊松(ZIP)混合回归模型建模分析,然而混合模型中自变量较多.为了筛选出重要变量,本文利用自适应LASSO对ZIP混合回归模型进行变量选择,即在似然函数中加入惩罚项,再利用EM算法估计参数.通过模拟,验证了该方法在变量选择和参数估计中的有效性.同时,将ZIP混合回归模型应用于预测借贷失败次数的实际数据分析,筛选出对借贷失败有重要影响的因素.最后,通过比较各模型的预测效果,得到ZIP混合回归模型优于泊松(Poisson),负二项(NB)和ZIP回归模型.  相似文献   

14.
本文研究泊松逆高斯回归模型的贝叶斯统计推断.基于应用Gibbs抽样,Metropolis-Hastings算法以及Multiple-Try Metropolis算法等MCMC统计方法计算模型未知参数和潜变量的联合贝叶斯估计,并引入两个拟合优度统计量来评价提出的泊松逆高斯回归模型的合理性.若干模拟研究与一个实证分析说明方...  相似文献   

15.
张婧  刘妍岩 《数学学报》2024,(3):582-598
在医学、遗传学、经济学等领域的研究中,线性回归模型常被用来研究变量间的回归关系,以进行分析和预测.而在很多实际问题中,仅仅考虑主效应的影响是远远不够的,变量之间的交互效应也会对因变量产生重要影响,同时考虑主效应和交互效应的交互模型能更全面地刻画变量之间的关系.在高维数据中,变量的个数p比较大,二阶交互项的个数(p(p+1))/2更大,此时对交互模型的统计分析存在很大的困难和挑战.如何从众多交互效应中挑选出对感兴趣事件有显著影响的重要交互效应是一个非常重要的问题.目前对此问题的研究主要集中在线性模型框架下的完全数据,本文将研究超高维右删失生存数据中重要交互效应的选取.基于距离相关系数和两步分析法的原理,本文提出了一种不依赖于任何模型假设的交互效应变量筛选方法.此方法可以同时实现重要主效应和重要交互效应的选取,且可以处理p很大的超高维数据.本文通过大量的数值模拟试验评估了该方法在有限样本下的表现,结果显示此方法能有效地处理超高维右删失数据中交互效应的选取问题.最后本文把它应用到弥漫性大b细胞淋巴瘤(DLBCL)数据的实例分析中.  相似文献   

16.
许多大型队列研究的主要预算和成本通常来自昂贵的关键协变量的采集与测量.在有限的预算或者时间下,观测大型队列中所有研究对象的昂贵协变量往往是不可行和低效的.因此,研究人员一直致力于寻找和使用能节约成本并能达到预设效率的抽样设计方法.对于生存数据,病例队列设计正是这样一种具有成本效益的有偏抽样机制.进一步,在病例队列研究中,为了利用更多的数据先验信息来提高研究的效率,可以在统计建模过程中对模型参数进行合理的假设和约束.本文研究病例队列设计下带约束的Cox模型中参数的估计方法.我们提出了一种加权约束估计的方法,并建立了所提出估计的渐近理论.发展了一种新的约束MM算法来实现所提出的加权约束估计的数值计算.通过统计模拟研究评估了所提出方法在有限样本量下的表现.分析了一个肾母细胞瘤的实际数据来展示所提出方法的实际应用价值.  相似文献   

17.
通过添加缺损的寿命变量数据得到了带有不完全信息随机截尾试验下泊松分布参数多变点模型的完全数据似然函数,研究了变点位置参数和其它参数的满条件分布.利用Gibbs抽样与Metropolis-Hastings算法相结合的MCMC方法对各参数的满条件分布分别进行了抽样,把Gibbs样本的均值作为各参数的贝叶斯估计,并且详细介绍了MCMC方法的实施步骤.最后进行了随机模拟试验,试验结果表明各参数贝叶斯估计的精度都较高.  相似文献   

18.
将MCMC算法融合到主成分回归分析模型中,提出MCMC主成分回归分析方法.新方法既具有有效避免解释变量之间的多重共线性问题以及简化回归方程结构的主成分回归分析方法的优势,又能够充分利用MCMC算法的融合先验信息、模型信息及样本似然函数的长处.将方法应用于对嘉兴市1997年至201.0年的经济发展指标的数据建模分析,结果表明,方法能有效克服现有分析方法的不足,建立预测精度更高的模型.  相似文献   

19.
在定期随访的医学研究或临床实验中,人们经常会收集到高维区间删失数据,如何对这类数据进行降维是一个非常有意义的问题.本文基于Kolmogorov-Smirnov检验统计量,利用分割和融合的技巧,把独立特征筛选方法推广到区间删失数据中,提出了一种可以处理超高维Ⅱ型区间删失数据且不依赖于任何模型假设的变量筛选方法.此方法的适用范围很广,可以有效地处理各种生存模型下的超高维Ⅱ型区间删失数据,而且可以处理离散型,连续型等多种类型的协变量.在估计生存函数时,本文采用EM-ICM算法,极大地提高了计算效率.大量的数值模拟实验验证了此方法在有限样本下的有效性.  相似文献   

20.
Kundu与Gupta~([1])提出用重要抽样法来计算Marshal-Olkin两元威布尔分布参数的贝叶斯估计,然而我们发现在样本量变大的情况下,重要抽样算法的参数估计效果却不理想.在这篇文章中,我们引入潜在变量来简化似然函数,并且提出利用MCMC算法实现对该模型未知参数的估计.为了评价我们提出方法的有效性,我们将提出的贝叶斯方法与极大似然估计数据模拟结果作对比,可以发现:即使在样本量很小的情况下,提出的贝叶斯方法的参数估计效果更理想.实例分析也说明了这一点.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号