首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 343 毫秒
1.
在定期随访的医学研究或临床实验中,人们经常会收集到高维区间删失数据,如何对这类数据进行降维是一个非常有意义的问题.本文基于Kolmogorov-Smirnov检验统计量,利用分割和融合的技巧,把独立特征筛选方法推广到区间删失数据中,提出了一种可以处理超高维Ⅱ型区间删失数据且不依赖于任何模型假设的变量筛选方法.此方法的适用范围很广,可以有效地处理各种生存模型下的超高维Ⅱ型区间删失数据,而且可以处理离散型,连续型等多种类型的协变量.在估计生存函数时,本文采用EM-ICM算法,极大地提高了计算效率.大量的数值模拟实验验证了此方法在有限样本下的有效性.  相似文献   

2.
可加模型通过协变量函数对响应变量起作用,是更加灵活的非参统计模型.当协变量个数大于样本数且以指数阶增大时,将维数降到经典方法可解决的范围是统计学家急需解决的问题.本文研究了超高维数据可加模型的变量筛选问题,提出了边际经验似然变量筛选方法.该方法通过排列在0点的边际经验似然率选择变量.我们证明了选择变量集以概率1渐进包含真实变量集;提出了迭代边际经验似然变量筛选方法.数据模拟和实数据分析验证了所提方法的可行性.  相似文献   

3.
在生存分析中,已有一些文献提出处理普通时间事件数据的Cox模型的超高维变量选择方法.然而,对于个体处在多个互斥事件的风险下,即存在竞争风险情形,并不能直接应用这些方法.一个分析竞争风险数据的常用模型就是比例子分布风险(proportional subdistribution hazard,PSH)模型.本文基于确定联合筛选(sure joint screening,SJS)和惩罚近似对数部分似然,对于超高维的PSH模型提出了两阶段变量选择方法,并证明了第一步特征筛选方法的确定筛选性质(sure screening property),即选出的变量集合以概率1渐近地包含实际的显著变量.本文通过Monte Carlo模拟展现了方法的性能和表现,并与确定独立筛选(sure independence screening)方法进行了比较.最后将方法应用到一个关于膀胱癌的公开数据集的分析中.  相似文献   

4.
针对存在缺失数据的超高维可加分位回归模型,本文提出一种有效的变量筛选方法.具体而言,将典型相关分析的思想引入到最优变换的最大相关系数,通过协变量和模型残差最优变换后的最大相关系数重要变量的边际贡献进行排序,从而进行变量筛选.然后,在筛选的基础上,利用稀疏光滑惩罚进一步做变量选择.所提变量筛选方法有三点优势:(1)基于最优变换的最大相关可以更全面的反映响应变量对协变量的非线性依赖结构;(2)在迭代过程中利用残差可以获取模型的相关信息,从而提高变量筛选的准确度;(3)变量筛选过程和模型估计分开,可以避免对冗余协变量的回归.在适当的条件下,证明了变量筛选方法的确定性独立筛选性质以及稀疏光滑惩罚下估计量的稀疏性和相合性.同时,通过蒙特卡罗模拟给出了所提方法的表现并通过一组小鼠基因数据说明了所提方法的有效性.  相似文献   

5.
本文考虑超高维部分线性模型,其中线性部分的维数p大于样本量n,且维数p随着样本量n呈指数阶增长.首先,利用半参数回归的profile方法,把超高维部分线性模型转化成超高维线性模型.其次,为了对高维线性分量进行有效的变量筛选,考虑到协变量之间的相关性,结合贪婪算法和向前回归变量筛选方法,针对部分线性模型,提出了profile贪婪向前回归(PGFR)变量筛选方法.在一定正则条件下,证明了所提PGFR方法具有筛选相合性.为了确定所选模型是否能够依概率趋于1包含真实模型,进一步提出了BIC准则.最后,通过模拟研究和实例分析验证了PGFR方法在有限样本下的完成情况.  相似文献   

6.
随着数据收集和存储能力的大幅提高,超高维数据~([9]),即数据维数伴随着样本呈指数增长,频繁出现在许多科学邻域.此时,惩罚类变量选择方法普遍遭遇三个方面的挑战:计算的复杂性,统计的准确性以及算法的稳定性.Fan和Lv~([9])首先提出超高维特征筛选的方法,并在近十多年取得大量研究成果,成为当今统计最热点的研究邻域.本文主要从带模型假设,包含参数、非参数半参数模型假定的筛选方法、无模型假设的筛选以及特殊数据的筛选方法四个角度来介绍超高维筛选相关工作,并简要探讨目前超高维筛选方法存在的问题以及未来可能的研究方向.  相似文献   

7.
本文研究了Morgenstern族次序统计量的协变量的分布及其在筛选测验中的应用.利用排序集抽样的方法,获得了分组测验情形下每组协变量的极值的分布.最后,将上述结果应用至总体为Gumbel二维指数分布和二维均匀分布的情形,给出了不同的样本量下选择问题的筛选效率.  相似文献   

8.
特征筛选方法对于超高维数据分析非常重要。本文基于Hoeffding’s独立检验统计量提出了一种新的条件独立筛选方法,简称为MMCSCIS。该方法具有以下特点:(1)不依赖于模型设定;(2)在自变量或因变量或条件变量的严格单调变换下结果不变;(3)可以同时处理条件特征筛选和特征筛选。通过模拟发现它对因变量或者自变量含有厚尾分布的数据和含有异常值的数据都比较稳健。最后我们通过两个实例分析说明了该方法的有效性。  相似文献   

9.
广义估计方程(GEE)是分析纵向数据的常用方法.如果响应变量的维数是一, XIE和YANG(2003)及WANG(2011)分别研究了协变量维数是固定的和协变量维数趋于无穷时, GEE估计的渐近性质.本文研究纵向多分类数据(multicategorical data)的GEE建模和GEE估计的渐近性质.当数据的分类数大于二时,响应变量的维数大于一,所以推广了文献的相关结果.  相似文献   

10.
变量选择是处理超高维数据过程中重要的部分.本文提出部分线性模型下ADS(Adaptive Dantzig Selector)方法,并证明其渐近正态性.通过数值模拟以及大众点评网数据,验证此方法的可行性以及高精准性.  相似文献   

11.
马田系统是由日本著名质量工程学家田口玄一提出的一种模式识别方法,它将正交试验设计、信噪比与马氏距离进行集成,筛选有效特征变量,对待测群体进行诊断、评价和预测.马田系统利用正交表和信噪比筛选特征变量可能存在不足之处,而粗糙集是处理不完善、不确定数据等不完全信息并能进行属性约简的有效方法,引入粗糙集筛选有效特征变量以改进马田系统.癌细胞的及早发现有助于乳腺癌的早期预防和及时治疗,以乳腺癌细胞的分类检测为背景,选取UCI数据库中600个细胞作为研究样本,使用改进马田系统方法区分正常细胞和乳腺癌细胞,并将其分类效果与经典马田系统相比较.结果表明,基于粗糙集的改进马田系统对乳腺癌细胞的分类正确率高于经典马田系统,粗糙集方法大大减少了特征变量个数,可简化数据的收集工作,为医疗上乳腺癌疾病的早期诊断及其他实际分类工作提供技术参考.  相似文献   

12.
张婧  刘妍岩 《数学学报》2024,(3):582-598
在医学、遗传学、经济学等领域的研究中,线性回归模型常被用来研究变量间的回归关系,以进行分析和预测.而在很多实际问题中,仅仅考虑主效应的影响是远远不够的,变量之间的交互效应也会对因变量产生重要影响,同时考虑主效应和交互效应的交互模型能更全面地刻画变量之间的关系.在高维数据中,变量的个数p比较大,二阶交互项的个数(p(p+1))/2更大,此时对交互模型的统计分析存在很大的困难和挑战.如何从众多交互效应中挑选出对感兴趣事件有显著影响的重要交互效应是一个非常重要的问题.目前对此问题的研究主要集中在线性模型框架下的完全数据,本文将研究超高维右删失生存数据中重要交互效应的选取.基于距离相关系数和两步分析法的原理,本文提出了一种不依赖于任何模型假设的交互效应变量筛选方法.此方法可以同时实现重要主效应和重要交互效应的选取,且可以处理p很大的超高维数据.本文通过大量的数值模拟试验评估了该方法在有限样本下的表现,结果显示此方法能有效地处理超高维右删失数据中交互效应的选取问题.最后本文把它应用到弥漫性大b细胞淋巴瘤(DLBCL)数据的实例分析中.  相似文献   

13.
含有协变量缺失的数据缺失问题是现代统计分析中的热点之一.当缺失数据中同时存在厚尾,偏斜和异方差问题时则更加难以处理.为此,本文提出一种逆概率加权分位回归估计来研究响应和协变量之间的关系.与经典估计方法相比具有明显优势,一方面,该估计量使用了所有可用的数据,并且允许缺失的协变量与响应高度相关;另一方面,该估计量在所有分位数水平上满足一致性和渐近正态性.通过模拟验证了该方法的在有限样本下的有效性,进一步将该方法推广到线性多元回归模型和非参数回归模型.  相似文献   

14.
在大数据时代的背景下,如何从超高维数据中筛选出真正重要的特征成为许多相关行业的研究者们广泛关注的一个问题.特征筛选的核心思想就在于排除那些明显与因变量不相关的特征以达到这一目的.基于核估计的SEVIS(Sure Explained Variability and Independence Screening)特征筛选方法在处理非对称,非线性数据下要在一定程度上优于之前的特征筛选模型,但其采用核估计的方式对非参数部分进行估计的方法仍存在进一步改进的空间.本文就从这个角度出发,将其核估计的算法修改为局部线性估计,并考虑部分特殊情况下的变量选择过程.结果显示,基于局部线性估计的SEVIS方法在准确性,运行效率上都要优于基于核估计的SEVIS的方法.  相似文献   

15.
本文在不同基准风险边际模型下考虑带辅助协变量的相关失效时间数据的统计推断.假设感兴趣的主协变量仅在全研究队列的一个子集中是精确测量的,而主协变量的辅助协变量则对研究队列的全部个体均可获得.首先利用辅助信息经验地估计相对风险函数,然后提出一种加权估计伪部分似然(weighted estimated pseudo-partial likelihood, WEPPL)方法求边际风险率参数的估计.本文在辅助协变量为分类变量的情形下建立WEPPL估计的渐近性质.相应估计被证明是相合的和渐近正态的.本文通过模拟研究评估提出的估计在有限样本下的表现.结果显示提出的加权估计在效率上要优于未加权的估计,特别是当失效时间之间相关性较强的时候.  相似文献   

16.
针对超高维二分类数据,基于条件信息熵构建了无模型下的判别筛选指标,对连续型特征进行筛选.在一定的正则条件下证明了确定筛选性质和指标排序相合性,并使用蒙特卡罗模拟和实例分析验证了筛选方法的有效性.  相似文献   

17.
广义估计方程(GEE)是分析纵向数据的常用方法.Balan,Schiopu-Kratina(2005)研究了协变量维数固定,GEE估计的渐近正态性.WANG(2011)研究了协变量维数趋于无穷,GEE估计的渐近正态性和响应变量是两点分布Wald统计量的渐近分布.本文证明协变量维数是固定的或趋于无穷,响应变量是任意分布的Wald统计量的渐近分布是卡方分布,Wald统计量可以直接用于统计推断.  相似文献   

18.
文章基于可加风险模型假设,采用偏最小二乘回归和有监督的主成分回归两种投影降维方法,研究了高维协变量情况下现状数据的降维问题。通过深入地模拟试验,对比两种降维方法在高维相关现状数据的生存预测方面的表现,最后将两种降维方法结合实际数据集进行实证分析。模拟和实证结果表明这两种降维方法能很好地处理具有高维、强相关协变量的小样本数据集,比如基因微阵列数据。在后续的研究中,有望将现状数据扩展至其它更一般的区间删失数据。  相似文献   

19.
《数理统计与管理》2019,(6):1014-1025
贝叶斯网络模型作为一种传统有效的大数据图模型,因其具有因果和概率性语义等特点受到学者们的广泛研究。为了解决基于高维数据构建贝叶斯网络的难题,本文提出了一种适用于高维数据的贝叶斯网络结构学习算法—LTB算法,该算法由Lasso、Tabu Search算法和BIC结合。首先,运用Lasso降低协变量的维数,筛选出与目标变量关系密切的协变量将作为贝叶斯网络的顶点。然后,选择Tabu Search作为元启发式算法,选择BIC作为计算得分的方法,两者结合构建全局最优的贝叶斯网络结构。实证分析表明,LTB算法应用于上证综指影响因素的研究,既可以获得上证综指与其影响因素间的因果关系,也可以利用条件概率得到上证综指影响因素间的组合方式。  相似文献   

20.
在生物医学研究中,研究个体的失效时间往往存在删失,Cox比例风险模型是经常被用来处理此类删失数据的模型.对于带有删失的高维数据,如何从众多协变量中挑选出少数的致病因素是研究者的兴趣所在.本文针对高维删失数据利用SELO惩罚函数考虑了基于Cox比例风险模型框架下的变量选择及参数估计问题.在允许协变量维数发散的条件下,本文给出SELO惩罚估计量的相合性以及oracle性质.计算方面若采用传统方法计算惩罚估计解,当协变量维数较高时计算Hesse阵的逆矩阵需要花费大量的时间,且SELO惩罚函数在原点的不光滑性也给计算SELO惩罚估计带来很大难度.为此,本文利用光滑化技术对SELO惩罚函数进行近似,并利用DFP公式去代替Hesse阵的逆矩阵,进而提出了MSQN算法.模拟计算的结果表明,SELO惩罚方法比已有常用的惩罚方法表现更好,而且本文提出的新算法与常用的坐标下降算法相比表现更优.在真实数据部分,本文还分析了乳腺癌数据,并利用留一交叉验证法来评估预测的好坏.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号