共查询到20条相似文献,搜索用时 31 毫秒
1.
特征筛选方法是处理超高维数据的一种快速有效的降维方法.针对超高维判别分类数据,提出一种改进的超高维特征筛选方法,方法不需要特定的模型假定;可以处理多分类响应变量情形;可适用于离散型或连续型协变量情形;对服从重尾分布的协变量,方法仍具有较好的稳健性.从理论上证明了所提出特征筛选方法满足确定筛选性和指标排序相合性,并通过数值模拟和实例分析在有限样本条件下验证了方法的有效性. 相似文献
2.
《应用概率统计》2017,(6)
本文考虑超高维部分线性模型,其中线性部分的维数p大于样本量n,且维数p随着样本量n呈指数阶增长.首先,利用半参数回归的profile方法,把超高维部分线性模型转化成超高维线性模型.其次,为了对高维线性分量进行有效的变量筛选,考虑到协变量之间的相关性,结合贪婪算法和向前回归变量筛选方法,针对部分线性模型,提出了profile贪婪向前回归(PGFR)变量筛选方法.在一定正则条件下,证明了所提PGFR方法具有筛选相合性.为了确定所选模型是否能够依概率趋于1包含真实模型,进一步提出了BIC准则.最后,通过模拟研究和实例分析验证了PGFR方法在有限样本下的完成情况. 相似文献
3.
在定期随访的医学研究或临床实验中,人们经常会收集到高维区间删失数据,如何对这类数据进行降维是一个非常有意义的问题.本文基于Kolmogorov-Smirnov检验统计量,利用分割和融合的技巧,把独立特征筛选方法推广到区间删失数据中,提出了一种可以处理超高维Ⅱ型区间删失数据且不依赖于任何模型假设的变量筛选方法.此方法的适用范围很广,可以有效地处理各种生存模型下的超高维Ⅱ型区间删失数据,而且可以处理离散型,连续型等多种类型的协变量.在估计生存函数时,本文采用EM-ICM算法,极大地提高了计算效率.大量的数值模拟实验验证了此方法在有限样本下的有效性. 相似文献
4.
在生存分析中,已有一些文献提出处理普通时间事件数据的Cox模型的超高维变量选择方法.然而,对于个体处在多个互斥事件的风险下,即存在竞争风险情形,并不能直接应用这些方法.一个分析竞争风险数据的常用模型就是比例子分布风险(proportional subdistribution hazard,PSH)模型.本文基于确定联合筛选(sure joint screening,SJS)和惩罚近似对数部分似然,对于超高维的PSH模型提出了两阶段变量选择方法,并证明了第一步特征筛选方法的确定筛选性质(sure screening property),即选出的变量集合以概率1渐近地包含实际的显著变量.本文通过Monte Carlo模拟展现了方法的性能和表现,并与确定独立筛选(sure independence screening)方法进行了比较.最后将方法应用到一个关于膀胱癌的公开数据集的分析中. 相似文献
5.
6.
针对超高维二分类数据,基于条件信息熵构建了无模型下的判别筛选指标,对连续型特征进行筛选.在一定的正则条件下证明了确定筛选性质和指标排序相合性,并使用蒙特卡罗模拟和实例分析验证了筛选方法的有效性. 相似文献
7.
异方差检验是回归分析中的一类重要问题.本文针对半参数多指标模型提出具备模型自适应性的异方差检验统计量.本文所研究的半参数模型包括两类自变量,分别为主要兴趣变量X和次级兴趣变量W.一般情形下,自变量X的维数较高,经常导致非参数估计的准确性大大降低.而次级变量W的存在使得传统的充分降维方法不再适用.本文基于部分充分降维方法,构建具有维数约简特性的检验统计量,有效避免了中高维数变量带来的估计难题,同时该统计量能够自适应于潜在的真实模型结构,具备良好的稳健性.本文在理论上研究所提出的检验统计量在原假设和备择假设下的渐近性质,并通过模拟研究和实证案例分析检验方法在有限样本下的表现. 相似文献
8.
在医学、遗传学、经济学等领域的研究中,线性回归模型常被用来研究变量间的回归关系,以进行分析和预测.而在很多实际问题中,仅仅考虑主效应的影响是远远不够的,变量之间的交互效应也会对因变量产生重要影响,同时考虑主效应和交互效应的交互模型能更全面地刻画变量之间的关系.在高维数据中,变量的个数p比较大,二阶交互项的个数(p(p+1))/2更大,此时对交互模型的统计分析存在很大的困难和挑战.如何从众多交互效应中挑选出对感兴趣事件有显著影响的重要交互效应是一个非常重要的问题.目前对此问题的研究主要集中在线性模型框架下的完全数据,本文将研究超高维右删失生存数据中重要交互效应的选取.基于距离相关系数和两步分析法的原理,本文提出了一种不依赖于任何模型假设的交互效应变量筛选方法.此方法可以同时实现重要主效应和重要交互效应的选取,且可以处理p很大的超高维数据.本文通过大量的数值模拟试验评估了该方法在有限样本下的表现,结果显示此方法能有效地处理超高维右删失数据中交互效应的选取问题.最后本文把它应用到弥漫性大b细胞淋巴瘤(DLBCL)数据的实例分析中. 相似文献
9.
10.
11.
在大数据时代的背景下,如何从超高维数据中筛选出真正重要的特征成为许多相关行业的研究者们广泛关注的一个问题.特征筛选的核心思想就在于排除那些明显与因变量不相关的特征以达到这一目的.基于核估计的SEVIS(Sure Explained Variability and Independence Screening)特征筛选方法在处理非对称,非线性数据下要在一定程度上优于之前的特征筛选模型,但其采用核估计的方式对非参数部分进行估计的方法仍存在进一步改进的空间.本文就从这个角度出发,将其核估计的算法修改为局部线性估计,并考虑部分特殊情况下的变量选择过程.结果显示,基于局部线性估计的SEVIS方法在准确性,运行效率上都要优于基于核估计的SEVIS的方法. 相似文献
12.
变量选择是处理超高维数据过程中重要的部分.本文提出部分线性模型下ADS(Adaptive Dantzig Selector)方法,并证明其渐近正态性.通过数值模拟以及大众点评网数据,验证此方法的可行性以及高精准性. 相似文献
13.
14.
通过比较参数方法和非参数方法对选择概率建模的优缺点,基于充分降维的思想提出了一种利用单指标模型对选择概率建模的半参数方法.基于逆概率加权方法和半参数方法,研究了缺失数据下线性模型的统计推断问题.建立的逆概率加权估计方程可以处理不同的数据缺失情形,给出了线性模型中兴趣参数的估计,并证明了它的渐近正态性.最后通过模拟研究说明提出的方法具有较好的有限样本性质. 相似文献
15.
针对存在缺失数据的超高维可加分位回归模型,本文提出一种有效的变量筛选方法.具体而言,将典型相关分析的思想引入到最优变换的最大相关系数,通过协变量和模型残差最优变换后的最大相关系数重要变量的边际贡献进行排序,从而进行变量筛选.然后,在筛选的基础上,利用稀疏光滑惩罚进一步做变量选择.所提变量筛选方法有三点优势:(1)基于最优变换的最大相关可以更全面的反映响应变量对协变量的非线性依赖结构;(2)在迭代过程中利用残差可以获取模型的相关信息,从而提高变量筛选的准确度;(3)变量筛选过程和模型估计分开,可以避免对冗余协变量的回归.在适当的条件下,证明了变量筛选方法的确定性独立筛选性质以及稀疏光滑惩罚下估计量的稀疏性和相合性.同时,通过蒙特卡罗模拟给出了所提方法的表现并通过一组小鼠基因数据说明了所提方法的有效性. 相似文献
16.
17.
18.
19.
研究了缺失数据的均值推断问题.在随机缺失及半参数模型的假设下,设计了基于影响函数理论的经验似然推断方法,证明了所构造的对数经验似然比检验统计量具有非参数Wilks性质.此外,该经验似然方法可以利用辅助协变量中提供的附加信息来提高检验的功效.在近邻备择假设下,计算了检验统计量的功效,并且通过一些模拟考察了该方法在有限样本下的表现. 相似文献
20.
研究了缺失数据的均值推断问题.在随机缺失及半参数模型的假设下,设计了基于影响函数理论的经验似然推断方法,证明了所构造的对数经验似然比检验统计量具有非参数Wilks性质.此外,该经验似然方法可以利用辅助协变量中提供的附加信息来提高检验的功效.在近邻备择假设下,计算了检验统计量的功效,并且通过一些模拟考察了该方法在有限样本下的表现. 相似文献