首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
特征筛选方法是处理超高维数据的一种快速有效的降维方法.针对超高维判别分类数据,提出一种改进的超高维特征筛选方法,方法不需要特定的模型假定;可以处理多分类响应变量情形;可适用于离散型或连续型协变量情形;对服从重尾分布的协变量,方法仍具有较好的稳健性.从理论上证明了所提出特征筛选方法满足确定筛选性和指标排序相合性,并通过数值模拟和实例分析在有限样本条件下验证了方法的有效性.  相似文献   

2.
本文考虑超高维部分线性模型,其中线性部分的维数p大于样本量n,且维数p随着样本量n呈指数阶增长.首先,利用半参数回归的profile方法,把超高维部分线性模型转化成超高维线性模型.其次,为了对高维线性分量进行有效的变量筛选,考虑到协变量之间的相关性,结合贪婪算法和向前回归变量筛选方法,针对部分线性模型,提出了profile贪婪向前回归(PGFR)变量筛选方法.在一定正则条件下,证明了所提PGFR方法具有筛选相合性.为了确定所选模型是否能够依概率趋于1包含真实模型,进一步提出了BIC准则.最后,通过模拟研究和实例分析验证了PGFR方法在有限样本下的完成情况.  相似文献   

3.
在定期随访的医学研究或临床实验中,人们经常会收集到高维区间删失数据,如何对这类数据进行降维是一个非常有意义的问题.本文基于Kolmogorov-Smirnov检验统计量,利用分割和融合的技巧,把独立特征筛选方法推广到区间删失数据中,提出了一种可以处理超高维Ⅱ型区间删失数据且不依赖于任何模型假设的变量筛选方法.此方法的适用范围很广,可以有效地处理各种生存模型下的超高维Ⅱ型区间删失数据,而且可以处理离散型,连续型等多种类型的协变量.在估计生存函数时,本文采用EM-ICM算法,极大地提高了计算效率.大量的数值模拟实验验证了此方法在有限样本下的有效性.  相似文献   

4.
在生存分析中,已有一些文献提出处理普通时间事件数据的Cox模型的超高维变量选择方法.然而,对于个体处在多个互斥事件的风险下,即存在竞争风险情形,并不能直接应用这些方法.一个分析竞争风险数据的常用模型就是比例子分布风险(proportional subdistribution hazard,PSH)模型.本文基于确定联合筛选(sure joint screening,SJS)和惩罚近似对数部分似然,对于超高维的PSH模型提出了两阶段变量选择方法,并证明了第一步特征筛选方法的确定筛选性质(sure screening property),即选出的变量集合以概率1渐近地包含实际的显著变量.本文通过Monte Carlo模拟展现了方法的性能和表现,并与确定独立筛选(sure independence screening)方法进行了比较.最后将方法应用到一个关于膀胱癌的公开数据集的分析中.  相似文献   

5.
可加模型通过协变量函数对响应变量起作用,是更加灵活的非参统计模型.当协变量个数大于样本数且以指数阶增大时,将维数降到经典方法可解决的范围是统计学家急需解决的问题.本文研究了超高维数据可加模型的变量筛选问题,提出了边际经验似然变量筛选方法.该方法通过排列在0点的边际经验似然率选择变量.我们证明了选择变量集以概率1渐进包含真实变量集;提出了迭代边际经验似然变量筛选方法.数据模拟和实数据分析验证了所提方法的可行性.  相似文献   

6.
针对超高维二分类数据,基于条件信息熵构建了无模型下的判别筛选指标,对连续型特征进行筛选.在一定的正则条件下证明了确定筛选性质和指标排序相合性,并使用蒙特卡罗模拟和实例分析验证了筛选方法的有效性.  相似文献   

7.
异方差检验是回归分析中的一类重要问题.本文针对半参数多指标模型提出具备模型自适应性的异方差检验统计量.本文所研究的半参数模型包括两类自变量,分别为主要兴趣变量X和次级兴趣变量W.一般情形下,自变量X的维数较高,经常导致非参数估计的准确性大大降低.而次级变量W的存在使得传统的充分降维方法不再适用.本文基于部分充分降维方法,构建具有维数约简特性的检验统计量,有效避免了中高维数变量带来的估计难题,同时该统计量能够自适应于潜在的真实模型结构,具备良好的稳健性.本文在理论上研究所提出的检验统计量在原假设和备择假设下的渐近性质,并通过模拟研究和实证案例分析检验方法在有限样本下的表现.  相似文献   

8.
张婧  刘妍岩 《数学学报》2024,(3):582-598
在医学、遗传学、经济学等领域的研究中,线性回归模型常被用来研究变量间的回归关系,以进行分析和预测.而在很多实际问题中,仅仅考虑主效应的影响是远远不够的,变量之间的交互效应也会对因变量产生重要影响,同时考虑主效应和交互效应的交互模型能更全面地刻画变量之间的关系.在高维数据中,变量的个数p比较大,二阶交互项的个数(p(p+1))/2更大,此时对交互模型的统计分析存在很大的困难和挑战.如何从众多交互效应中挑选出对感兴趣事件有显著影响的重要交互效应是一个非常重要的问题.目前对此问题的研究主要集中在线性模型框架下的完全数据,本文将研究超高维右删失生存数据中重要交互效应的选取.基于距离相关系数和两步分析法的原理,本文提出了一种不依赖于任何模型假设的交互效应变量筛选方法.此方法可以同时实现重要主效应和重要交互效应的选取,且可以处理p很大的超高维数据.本文通过大量的数值模拟试验评估了该方法在有限样本下的表现,结果显示此方法能有效地处理超高维右删失数据中交互效应的选取问题.最后本文把它应用到弥漫性大b细胞淋巴瘤(DLBCL)数据的实例分析中.  相似文献   

9.
特征筛选方法对于超高维数据分析非常重要。本文基于Hoeffding’s独立检验统计量提出了一种新的条件独立筛选方法,简称为MMCSCIS。该方法具有以下特点:(1)不依赖于模型设定;(2)在自变量或因变量或条件变量的严格单调变换下结果不变;(3)可以同时处理条件特征筛选和特征筛选。通过模拟发现它对因变量或者自变量含有厚尾分布的数据和含有异常值的数据都比较稳健。最后我们通过两个实例分析说明了该方法的有效性。  相似文献   

10.
在可加回归模型中,高维回归分析一般采用单指标模型.该模型与参数模型相比更加灵活,同时避免了维数灾难,因为单指标将标准变量向量的维数降低为单变量指标.本文构建了一个带有函数型误差项的单指数回归模型用于检验单指标模型的异方差性.由于回归模型的有效推断要求在存在异方差的情况下考虑异方差,本文提出了检验单指标模型方差不变性的假设.将Levene检验和无限因子水平的方差分析理论结合得到检验统计量用来评估方差同质性.模拟研究显示与已有方法相比,所提检验统计量适用于多种情形.最后将本文的方法应用于分析一组实际数据.  相似文献   

11.
在大数据时代的背景下,如何从超高维数据中筛选出真正重要的特征成为许多相关行业的研究者们广泛关注的一个问题.特征筛选的核心思想就在于排除那些明显与因变量不相关的特征以达到这一目的.基于核估计的SEVIS(Sure Explained Variability and Independence Screening)特征筛选方法在处理非对称,非线性数据下要在一定程度上优于之前的特征筛选模型,但其采用核估计的方式对非参数部分进行估计的方法仍存在进一步改进的空间.本文就从这个角度出发,将其核估计的算法修改为局部线性估计,并考虑部分特殊情况下的变量选择过程.结果显示,基于局部线性估计的SEVIS方法在准确性,运行效率上都要优于基于核估计的SEVIS的方法.  相似文献   

12.
变量选择是处理超高维数据过程中重要的部分.本文提出部分线性模型下ADS(Adaptive Dantzig Selector)方法,并证明其渐近正态性.通过数值模拟以及大众点评网数据,验证此方法的可行性以及高精准性.  相似文献   

13.
本文基于指数-威布尔分布研究逐步Ⅰ型混合截尾竞争失效模型的统计推断问题.根据模型假设和竞争失效数据,推导出未知参数和产品可靠度的极大似然估计;考虑极大似然估计的渐近正态性质,计算出观测Fisher信息阵,从而获得未知参数和可靠度的渐近置信区间.由于贝叶斯后验密度函数不具有封闭形式,利用MCMC方法给出未知参数和可靠度的近似贝叶斯估计以及最大后验密度可信区间.最后通过模拟研究对估计方法作出解释并给出数值结果.结果表明极大似然方法和贝叶斯方法可以对逐步Ⅰ型混合截尾竞争失效模型进行统计推断.  相似文献   

14.
通过比较参数方法和非参数方法对选择概率建模的优缺点,基于充分降维的思想提出了一种利用单指标模型对选择概率建模的半参数方法.基于逆概率加权方法和半参数方法,研究了缺失数据下线性模型的统计推断问题.建立的逆概率加权估计方程可以处理不同的数据缺失情形,给出了线性模型中兴趣参数的估计,并证明了它的渐近正态性.最后通过模拟研究说明提出的方法具有较好的有限样本性质.  相似文献   

15.
针对存在缺失数据的超高维可加分位回归模型,本文提出一种有效的变量筛选方法.具体而言,将典型相关分析的思想引入到最优变换的最大相关系数,通过协变量和模型残差最优变换后的最大相关系数重要变量的边际贡献进行排序,从而进行变量筛选.然后,在筛选的基础上,利用稀疏光滑惩罚进一步做变量选择.所提变量筛选方法有三点优势:(1)基于最优变换的最大相关可以更全面的反映响应变量对协变量的非线性依赖结构;(2)在迭代过程中利用残差可以获取模型的相关信息,从而提高变量筛选的准确度;(3)变量筛选过程和模型估计分开,可以避免对冗余协变量的回归.在适当的条件下,证明了变量筛选方法的确定性独立筛选性质以及稀疏光滑惩罚下估计量的稀疏性和相合性.同时,通过蒙特卡罗模拟给出了所提方法的表现并通过一组小鼠基因数据说明了所提方法的有效性.  相似文献   

16.
本文研究了函数型二次回归中二次参数函数的显著性检验问题。采用函数型主成分分析将预测变量函数进行投影降维,利用零模型和全模型的残差平方和构造F型检验统计量。在一定的正则条件下证明了检验统计量在原假设下渐近于F分布,在备择假设下检验统计量依概率趋于无穷,从而表明该检验方法是相合的。进一步证明了在一定收敛速度的局部备择假设下,检验统计量渐近于非中心F分布。最后通过数值模拟研究了该检验方法在有限样本下的表现,并给出了一个实际例子进一步验证所提方法的有效性。  相似文献   

17.
本将随机效应当作是缺失数据,基于Q函数和EM算法并利用P-样条拟合非参数部分,得到了纵向数据半参数Beta回归模型估计方法.基于数据删除模型,我们得到了模型参数部分的广义Cook距离以及非参数部分的广义DFIT.此外,本文还研究了在四种不同扰动情形下模型的局部影响分析,得到了相应的影响矩阵.最后,我们通过两个数值实例验证了所得诊断统计量的有效性.  相似文献   

18.
刘高生  柏杨  余平 《数学学报》2023,(2):239-252
本文提出了部分函数型线性空间自回归模型的空间效应以及参数效应的假设检验问题.首先利用函数型主成分分析方法估计斜率函数,利用广义矩估计方法估计参数.然后利用得到的相合估计,在原假设和备择假设下,构造了基于残差平方和的检验统计量,同时给出了此检验统计量的渐近性质.模拟结果表明在有限样本下,检验统计量具有良好表现.最后将部分函数型线性空间自回归模型的检验应用到一个关于经济增长的数据案例中,说明所提出的检验统计量的应用表现.  相似文献   

19.
研究了缺失数据的均值推断问题.在随机缺失及半参数模型的假设下,设计了基于影响函数理论的经验似然推断方法,证明了所构造的对数经验似然比检验统计量具有非参数Wilks性质.此外,该经验似然方法可以利用辅助协变量中提供的附加信息来提高检验的功效.在近邻备择假设下,计算了检验统计量的功效,并且通过一些模拟考察了该方法在有限样本下的表现.  相似文献   

20.
研究了缺失数据的均值推断问题.在随机缺失及半参数模型的假设下,设计了基于影响函数理论的经验似然推断方法,证明了所构造的对数经验似然比检验统计量具有非参数Wilks性质.此外,该经验似然方法可以利用辅助协变量中提供的附加信息来提高检验的功效.在近邻备择假设下,计算了检验统计量的功效,并且通过一些模拟考察了该方法在有限样本下的表现.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号