首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
张婧  刘妍岩 《数学学报》2024,(3):582-598
在医学、遗传学、经济学等领域的研究中,线性回归模型常被用来研究变量间的回归关系,以进行分析和预测.而在很多实际问题中,仅仅考虑主效应的影响是远远不够的,变量之间的交互效应也会对因变量产生重要影响,同时考虑主效应和交互效应的交互模型能更全面地刻画变量之间的关系.在高维数据中,变量的个数p比较大,二阶交互项的个数(p(p+1))/2更大,此时对交互模型的统计分析存在很大的困难和挑战.如何从众多交互效应中挑选出对感兴趣事件有显著影响的重要交互效应是一个非常重要的问题.目前对此问题的研究主要集中在线性模型框架下的完全数据,本文将研究超高维右删失生存数据中重要交互效应的选取.基于距离相关系数和两步分析法的原理,本文提出了一种不依赖于任何模型假设的交互效应变量筛选方法.此方法可以同时实现重要主效应和重要交互效应的选取,且可以处理p很大的超高维数据.本文通过大量的数值模拟试验评估了该方法在有限样本下的表现,结果显示此方法能有效地处理超高维右删失数据中交互效应的选取问题.最后本文把它应用到弥漫性大b细胞淋巴瘤(DLBCL)数据的实例分析中.  相似文献   

2.
聚类区间删失失效时间常出现于医学研究中研究对象来自同一个类中的情形.此外,失效时间可能与类的大小相关.由于缺乏直接分析所需的推演过程,因此常见的简单方式就是简化区间删失数据.鉴于此,本文提出了类内重抽样方法来考虑加法风险模型下的Ⅱ型区间删失问题.类内重抽样的方法简单但需要大量计算,这一方法的主要优势在于在类的大小相关时,估计变量易于实现.渐近性质和部分模拟结果的讨论验证了该方法的有效性.  相似文献   

3.
在临床数据的收集中,由于竞争性风险或者病人的退出可能导致数据删失.删失数据的统计分析大多是基于独立删失的假定进行的.而实际情况中,数据的删失往往是非独立的,即删失变量和失效时间变量是相关的.相依删失使得原本复杂的删失数据处理变得更加困难.在本文中,假定删失变量和失效时间变量的联合分布可以用它们边际分布的连接函数函数表示,在给定连接函数下,得到了比例风险模型的极大似然估计.模拟计算显示,如果删失假定成立,本文所采用方法比独立删失假定下的估计方法更准确.  相似文献   

4.
可加风险模型是生存分析中一类重要的回归模型,许多学者对该模型进行过研究.但是针对相依Ⅰ型区间删失数据的研究却非常少,且已有的研究都假设删失时间与寿命之间的关联系数已知.显然,该假设在实际中未必成立.针对此问题,本文放松这一假设,提出一种新的基于Copula的方法对可加风险模型下相依Ⅰ型区间删失数据进行回归分析,给出参数部分估计量的渐近性质,通过数值模拟检验所提方法在有限样本下的表现,并进行实例分析.  相似文献   

5.
特征筛选方法是处理超高维数据的一种快速有效的降维方法.针对超高维判别分类数据,提出一种改进的超高维特征筛选方法,方法不需要特定的模型假定;可以处理多分类响应变量情形;可适用于离散型或连续型协变量情形;对服从重尾分布的协变量,方法仍具有较好的稳健性.从理论上证明了所提出特征筛选方法满足确定筛选性和指标排序相合性,并通过数值模拟和实例分析在有限样本条件下验证了方法的有效性.  相似文献   

6.
在生存分析中,已有一些文献提出处理普通时间事件数据的Cox模型的超高维变量选择方法.然而,对于个体处在多个互斥事件的风险下,即存在竞争风险情形,并不能直接应用这些方法.一个分析竞争风险数据的常用模型就是比例子分布风险(proportional subdistribution hazard,PSH)模型.本文基于确定联合筛选(sure joint screening,SJS)和惩罚近似对数部分似然,对于超高维的PSH模型提出了两阶段变量选择方法,并证明了第一步特征筛选方法的确定筛选性质(sure screening property),即选出的变量集合以概率1渐近地包含实际的显著变量.本文通过Monte Carlo模拟展现了方法的性能和表现,并与确定独立筛选(sure independence screening)方法进行了比较.最后将方法应用到一个关于膀胱癌的公开数据集的分析中.  相似文献   

7.
文章基于可加风险模型假设,采用偏最小二乘回归和有监督的主成分回归两种投影降维方法,研究了高维协变量情况下现状数据的降维问题。通过深入地模拟试验,对比两种降维方法在高维相关现状数据的生存预测方面的表现,最后将两种降维方法结合实际数据集进行实证分析。模拟和实证结果表明这两种降维方法能很好地处理具有高维、强相关协变量的小样本数据集,比如基因微阵列数据。在后续的研究中,有望将现状数据扩展至其它更一般的区间删失数据。  相似文献   

8.
文章考虑带有随机移除的逐步Ⅱ型区间删失(PICR-Ⅱ)方案下生存数据的统计分析和试验方案的设计问题.给出了Weibull回归模型参数的极大似然估计和贝叶斯估计方法.利用模拟数据和实际数据,对不同估计方法下参数估计的结果进行了比较.给出了最优PICR-Ⅱ方案设计方法.  相似文献   

9.
在生物医学研究中,研究个体的失效时间往往存在删失,Cox比例风险模型是经常被用来处理此类删失数据的模型.对于带有删失的高维数据,如何从众多协变量中挑选出少数的致病因素是研究者的兴趣所在.本文针对高维删失数据利用SELO惩罚函数考虑了基于Cox比例风险模型框架下的变量选择及参数估计问题.在允许协变量维数发散的条件下,本文给出SELO惩罚估计量的相合性以及oracle性质.计算方面若采用传统方法计算惩罚估计解,当协变量维数较高时计算Hesse阵的逆矩阵需要花费大量的时间,且SELO惩罚函数在原点的不光滑性也给计算SELO惩罚估计带来很大难度.为此,本文利用光滑化技术对SELO惩罚函数进行近似,并利用DFP公式去代替Hesse阵的逆矩阵,进而提出了MSQN算法.模拟计算的结果表明,SELO惩罚方法比已有常用的惩罚方法表现更好,而且本文提出的新算法与常用的坐标下降算法相比表现更优.在真实数据部分,本文还分析了乳腺癌数据,并利用留一交叉验证法来评估预测的好坏.  相似文献   

10.
变量选择是处理超高维数据过程中重要的部分.本文提出部分线性模型下ADS(Adaptive Dantzig Selector)方法,并证明其渐近正态性.通过数值模拟以及大众点评网数据,验证此方法的可行性以及高精准性.  相似文献   

11.
在生存分析研究中,多数文章假定感兴趣的失效时间和删失时间是独立的,但这一假设在实际情况中未必合理。如果忽略失效时间与删失时间的相依性,可能会导致错误的结论。所以本文考虑在带有信息的K型区间删失数据下,采用基于两步估计的极大似然估计方法对误差项服从标准正态分布的加速失效时间模型(accelerated failure time model,AFT)进行参数估计。同时还进行了数值模拟以验证提出方法的有效性。最后,应用所提出的方法分析艾滋病的临床试验数据。  相似文献   

12.
医药临床试验,生存分析,可靠性统计等研究领域,由于考虑到时间和费用问题,研究往往有一定期限.因为研究到期的被迫结束或者某些病人中途退出试验,最后得到的试验结果往往是删失数据.对于删失数据,采用无偏转换的方法处理,方法的最大优点是得到的估计量为显式解.首先讨论了在纵向右删失数据下线性回归模型回归系数估计的均方相合性,并且把结论推广到了污染线性模型,得到了污染系数、回归系数的强相合估计.  相似文献   

13.
在治愈率模型中,感兴趣的事件只发生在一部分个体上,对另外的个体而言,感兴趣的事件一直不会出现.所有的个体被分为两类:可治愈的个体和不可治愈的个体.在寿命数据的研究中,加速失效模型的研究成果很多,但大多数是基于右删失数据进行的,区间删失数据的研究成果相对较少,特别是当研究总体包含有治愈的部分时.本文研究的是Ⅰ型区间删失数据下的一类加速失效治愈率模型.假定协变量对个体被治愈的概率的影响用逻辑斯蒂克模型表示,未治愈个体的发病时间用加速失效模型进行分析.文中采用EM算法得出了模型参数的极大似然估计,并用模拟计算的方式验证了估计量的有效性.  相似文献   

14.
在生存分析领域,加速失效时间(AFT)模型经常被用于预测事件发生的时间.本文将该模型推广到多事件时间情形,提出了多响应AFT模型,并假设协变量是高维的,模型的系数矩阵是联合低秩且稀疏的.此外还假设多个事件时间受制于同一个右删失变量.为了估计模型中的系数矩阵,本文提出一个两阶段方法,先对数据进行逆概率删失加权(IPCW),再用SESS算法求解一个稀疏降秩回归问题.本文通过数值模拟,验证了所提方法的有效性.最后将该方法应用于一个关于白血病患者骨髓移植的临床数据集.  相似文献   

15.
纵向数据常常用正态混合效应模型进行分析.然而,违背正态性的假定往往会导致无效的推断.与传统的均值回归相比较,分位回归可以给出响应变量条件分布的完整刻画,对于非正态误差分布也可以给稳健的估计结果.本文主要考虑右删失响应下纵向混合效应模型的分位回归估计和变量选择问题.首先,逆删失概率加权方法被用来得到模型的参数估计.其次,结合逆删失概率加权和LASSO惩罚变量选择方法考虑了模型的变量选择问题.蒙特卡洛模拟显示所提方法要比直接删除删失数据的估计方法更具优势.最后,分析了一组艾滋病数据集来展示所提方法的实际应用效果.  相似文献   

16.
本文首先建立左截断右删失数据下的一般分位数回归方法.当截断变量服从均匀分布时,左截断右删失数据变成长度偏差右删失数据.长度偏差数据因其特殊性,提供了更多的信息.当把适用于左截断右删失数据的一般方法用到长度偏差右删失数据时,得到的估计量并不有效,这是因为它们没有利用该数据的特殊结构.为了提高效率,本文提出复合估计方程方法来解决长度偏差右删失数据下的分位数回归问题,这种方法并不需要估计删失变量的分布.所提出的估计方程可以通过一个求L_1型凸函数最小值的简单算法来求解.本文用经验过程和随机积分的技巧建立了所提出估计量的一致相合性和弱收敛性.随机模拟验证了所提出方法在有限样本时的表现,并且给出了实例分析.  相似文献   

17.
带有治愈亚组的区间删失数据常见于周期性随访或检查的医学研究中,此时研究总体中有一部分个体不会发生所感兴趣的事件,而对于每个发生所感兴趣事件的个体,其事件的发生时间落入某一时间区间内而非被精确地观测到。此外,在实际问题中,我们时常会遇到协变量维数较高的情形,而如何进行变量选择以识别出对疾病发生有重要影响的因素十分重要。本文研究带有治愈亚组的区间删失数据的变量选择问题,我们采用最小近似信息准则方法并提出一种惩罚期望极大化算法来同时实现变量选择和参数估计,所提出方法的一个重要优点是在变量选择过程中无须选择最优调节参数。通过数值模拟,我们比较所提出方法与一般的正则化方法如LASSO,ALASSO,以及SCAD在有限样本下的表现。结果表明,所提出方法有很高的变量选择准确率且在计算上比LASSO,ALASSO和SCAD更加快速、高效。最后,我们将所提出方法应用到一组有关于尼日利亚新生儿童死亡率的区间删失数据中。  相似文献   

18.
多重Ⅱ型删失数据的近似似然函数及应用   总被引:4,自引:0,他引:4  
多重Ⅱ型删失数据是一种很常见的数据删失类型,处理起来也非常困难,本文获得了多重Ⅱ型删失数据的一种近似似然函数,并证明了在大样本场合下,这种近似与似然函数是等价的。基于该近似似然函数,求得了参数的近似极大似然估计与近似Bayes估计,并讨论似极大似然估计的性质。  相似文献   

19.
纵向数据常常用正态混合效应模型进行分析.然而,违背正态性的假定往往会导致无效的推断.与传统的均值回归相比较,分位回归可以给出响应变量条件分布的完整刻画,对于非正态误差分布也可以给稳健的估计结果.本文主要考虑右删失响应下纵向混合效应模型的分位回归估计和变量选择问题.首先,逆删失概率加权方法被用来得到模型的参数估计.其次,结合逆删失概率加权和LASSO惩罚变量选择方法考虑了模型的变量选择问题.蒙特卡洛模拟显示所提方法要比直接删除删失数据的估计方法更具优势.最后,分析了一组艾滋病数据集来展示所提方法的实际应用效果.  相似文献   

20.
孙桂萍  赵目  周勇 《数学学报》2022,(4):607-624
剩余寿命是刻画个体预期寿命的一个重要度量,对剩余寿命的早期研究主要集中在剩余均值上.然而当总体生存函数偏态或厚尾时剩余均值函数可能不存在,因此统计学者建议用剩余寿命分位数来刻画预期寿命.在完全数据和右删失数据下,剩余寿命分位数的建模和理论已经很完善.但是,在实际的调查研究中经常会遇到偏差抽样数据.例如,临床医学中的左截断数据,流行病学中的病例队列抽样数据,医学大型队列研究中的长度偏差抽样数据等等.忽略抽样偏差会导致参数估计有偏和不合理的推断结果.本文考虑一般偏差右删失数据下剩余寿命分位数回归的统计推断问题.首先,我们提出了一个一般偏差右删失数据下的剩余寿命分位数回归模型,并利用一般估计方程方法对模型中的参数进行了估计.针对已有文献常用的删失变量与协变量独立性假设,本文重点考虑了删失变量依赖于协变量场合.其次,由于估计量的渐近方差中涉及非参密度函数,在估计渐近方差时,本文采用Bootstrap方法.最后,数值模拟显示本文提出的方法有限样本性质表现很好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号