首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 915 毫秒
1.
特征筛选方法是处理超高维数据的一种快速有效的降维方法.针对超高维判别分类数据,提出一种改进的超高维特征筛选方法,方法不需要特定的模型假定;可以处理多分类响应变量情形;可适用于离散型或连续型协变量情形;对服从重尾分布的协变量,方法仍具有较好的稳健性.从理论上证明了所提出特征筛选方法满足确定筛选性和指标排序相合性,并通过数值模拟和实例分析在有限样本条件下验证了方法的有效性.  相似文献   

2.
随着数据收集和存储能力的大幅提高,超高维数据~([9]),即数据维数伴随着样本呈指数增长,频繁出现在许多科学邻域.此时,惩罚类变量选择方法普遍遭遇三个方面的挑战:计算的复杂性,统计的准确性以及算法的稳定性.Fan和Lv~([9])首先提出超高维特征筛选的方法,并在近十多年取得大量研究成果,成为当今统计最热点的研究邻域.本文主要从带模型假设,包含参数、非参数半参数模型假定的筛选方法、无模型假设的筛选以及特殊数据的筛选方法四个角度来介绍超高维筛选相关工作,并简要探讨目前超高维筛选方法存在的问题以及未来可能的研究方向.  相似文献   

3.
本文考虑超高维部分线性模型,其中线性部分的维数p大于样本量n,且维数p随着样本量n呈指数阶增长.首先,利用半参数回归的profile方法,把超高维部分线性模型转化成超高维线性模型.其次,为了对高维线性分量进行有效的变量筛选,考虑到协变量之间的相关性,结合贪婪算法和向前回归变量筛选方法,针对部分线性模型,提出了profile贪婪向前回归(PGFR)变量筛选方法.在一定正则条件下,证明了所提PGFR方法具有筛选相合性.为了确定所选模型是否能够依概率趋于1包含真实模型,进一步提出了BIC准则.最后,通过模拟研究和实例分析验证了PGFR方法在有限样本下的完成情况.  相似文献   

4.
可加模型通过协变量函数对响应变量起作用,是更加灵活的非参统计模型.当协变量个数大于样本数且以指数阶增大时,将维数降到经典方法可解决的范围是统计学家急需解决的问题.本文研究了超高维数据可加模型的变量筛选问题,提出了边际经验似然变量筛选方法.该方法通过排列在0点的边际经验似然率选择变量.我们证明了选择变量集以概率1渐进包含真实变量集;提出了迭代边际经验似然变量筛选方法.数据模拟和实数据分析验证了所提方法的可行性.  相似文献   

5.
针对存在缺失数据的超高维可加分位回归模型,本文提出一种有效的变量筛选方法.具体而言,将典型相关分析的思想引入到最优变换的最大相关系数,通过协变量和模型残差最优变换后的最大相关系数重要变量的边际贡献进行排序,从而进行变量筛选.然后,在筛选的基础上,利用稀疏光滑惩罚进一步做变量选择.所提变量筛选方法有三点优势:(1)基于最优变换的最大相关可以更全面的反映响应变量对协变量的非线性依赖结构;(2)在迭代过程中利用残差可以获取模型的相关信息,从而提高变量筛选的准确度;(3)变量筛选过程和模型估计分开,可以避免对冗余协变量的回归.在适当的条件下,证明了变量筛选方法的确定性独立筛选性质以及稀疏光滑惩罚下估计量的稀疏性和相合性.同时,通过蒙特卡罗模拟给出了所提方法的表现并通过一组小鼠基因数据说明了所提方法的有效性.  相似文献   

6.
张婧  刘妍岩 《数学学报》2024,(3):582-598
在医学、遗传学、经济学等领域的研究中,线性回归模型常被用来研究变量间的回归关系,以进行分析和预测.而在很多实际问题中,仅仅考虑主效应的影响是远远不够的,变量之间的交互效应也会对因变量产生重要影响,同时考虑主效应和交互效应的交互模型能更全面地刻画变量之间的关系.在高维数据中,变量的个数p比较大,二阶交互项的个数(p(p+1))/2更大,此时对交互模型的统计分析存在很大的困难和挑战.如何从众多交互效应中挑选出对感兴趣事件有显著影响的重要交互效应是一个非常重要的问题.目前对此问题的研究主要集中在线性模型框架下的完全数据,本文将研究超高维右删失生存数据中重要交互效应的选取.基于距离相关系数和两步分析法的原理,本文提出了一种不依赖于任何模型假设的交互效应变量筛选方法.此方法可以同时实现重要主效应和重要交互效应的选取,且可以处理p很大的超高维数据.本文通过大量的数值模拟试验评估了该方法在有限样本下的表现,结果显示此方法能有效地处理超高维右删失数据中交互效应的选取问题.最后本文把它应用到弥漫性大b细胞淋巴瘤(DLBCL)数据的实例分析中.  相似文献   

7.
变量选择是处理超高维数据过程中重要的部分.本文提出部分线性模型下ADS(Adaptive Dantzig Selector)方法,并证明其渐近正态性.通过数值模拟以及大众点评网数据,验证此方法的可行性以及高精准性.  相似文献   

8.
针对超高维二分类数据,基于条件信息熵构建了无模型下的判别筛选指标,对连续型特征进行筛选.在一定的正则条件下证明了确定筛选性质和指标排序相合性,并使用蒙特卡罗模拟和实例分析验证了筛选方法的有效性.  相似文献   

9.
特征筛选方法对于超高维数据分析非常重要。本文基于Hoeffding’s独立检验统计量提出了一种新的条件独立筛选方法,简称为MMCSCIS。该方法具有以下特点:(1)不依赖于模型设定;(2)在自变量或因变量或条件变量的严格单调变换下结果不变;(3)可以同时处理条件特征筛选和特征筛选。通过模拟发现它对因变量或者自变量含有厚尾分布的数据和含有异常值的数据都比较稳健。最后我们通过两个实例分析说明了该方法的有效性。  相似文献   

10.
在定期随访的医学研究或临床实验中,人们经常会收集到高维区间删失数据,如何对这类数据进行降维是一个非常有意义的问题.本文基于Kolmogorov-Smirnov检验统计量,利用分割和融合的技巧,把独立特征筛选方法推广到区间删失数据中,提出了一种可以处理超高维Ⅱ型区间删失数据且不依赖于任何模型假设的变量筛选方法.此方法的适用范围很广,可以有效地处理各种生存模型下的超高维Ⅱ型区间删失数据,而且可以处理离散型,连续型等多种类型的协变量.在估计生存函数时,本文采用EM-ICM算法,极大地提高了计算效率.大量的数值模拟实验验证了此方法在有限样本下的有效性.  相似文献   

11.
在大数据时代的背景下,如何从超高维数据中筛选出真正重要的特征成为许多相关行业的研究者们广泛关注的一个问题.特征筛选的核心思想就在于排除那些明显与因变量不相关的特征以达到这一目的.基于核估计的SEVIS(Sure Explained Variability and Independence Screening)特征筛选方法在处理非对称,非线性数据下要在一定程度上优于之前的特征筛选模型,但其采用核估计的方式对非参数部分进行估计的方法仍存在进一步改进的空间.本文就从这个角度出发,将其核估计的算法修改为局部线性估计,并考虑部分特殊情况下的变量选择过程.结果显示,基于局部线性估计的SEVIS方法在准确性,运行效率上都要优于基于核估计的SEVIS的方法.  相似文献   

12.
从弹性网(Elastic net)方法所选择的模型出发,构造基于模型选择条件下的系数的精确分布,并通过分布进行推断从而得到检验系数显著性的p值及模型系数的置信区间等.通过方法可对传统弹性网方法所选模型做进一步调整,模拟研究说明了本文所提方法在变量选择中的适用性。如对噪声变量有较强的识别能力等.在实证分析中,使用基于变量选择事件的弹性网方法对我国劳动者工资收入的影响原因进行了筛选,分析表明在传统弹性网方法选取的解释变量中,宗教活动频率、工龄、身体健康程度以及个体身高不是影响劳动收入的最主要原因,可依据实际情况剔除这些变量,减少研究成本且提高分析效率,在实际应用中有一定的参考价值.  相似文献   

13.
来源于不同总体的数据异质性较大,数据“零取值”较多且离散度大,可利用零膨胀泊松(ZIP)混合回归模型建模分析,然而混合模型中自变量较多.为了筛选出重要变量,本文利用自适应LASSO对ZIP混合回归模型进行变量选择,即在似然函数中加入惩罚项,再利用EM算法估计参数.通过模拟,验证了该方法在变量选择和参数估计中的有效性.同时,将ZIP混合回归模型应用于预测借贷失败次数的实际数据分析,筛选出对借贷失败有重要影响的因素.最后,通过比较各模型的预测效果,得到ZIP混合回归模型优于泊松(Poisson),负二项(NB)和ZIP回归模型.  相似文献   

14.
高维数据变量选择方法综述   总被引:2,自引:0,他引:2  
变量选择是统计学知识结构中不可或缺的一部分。本文归纳梳理了近二十年多来的变量选择方法,着重介绍了处理高维数据以及超高维数据的变量选择方法。最后我们通过一个实例比较了不同变量选择方法的差异性。  相似文献   

15.
本文在竞争风险数据下提出一种灵活的含变系数的可加可乘的子分布风险率模型.通过对删失时间的风险函数建立Cox比例风险模型,得到调整后的与协变量相依的权重,在新权重下建立估计方程来估计模型参数,并获得了估计的大样本性质,同时提出了模型中协变量的时变效应的检验方法.通过数值模拟验证了所提方法的有限样本性质,结果表明所提方法可以大大降低估计偏差.最后,分析了一组淋巴滤泡细胞的竞争风险数据集来展示所提方法的实际应用效果.  相似文献   

16.
当前上市公司信用风险数据所呈现出的高维度以及高相关性的特点严重影响了信用风险模型的准确性。为此本文结合已有算法以及信用风险模型的特点设计了一种新的基于非参数的变量选择方法。通过该方法对上市公司用风险相关变量进行分析筛选可以消除数据集中包含的噪声变量以及线性相关变量。本文同时还针对该方法设计了高变量维度下最优解求解算法。文章以Logistic模型为例对上市公司信用风险做了实证分析,研究结果表明与以往的变量选择方法相比该方法可以有效的降低数据维度,消除变量间的相关性,并同时提高模型的可靠性和预测精度。  相似文献   

17.
当真实的潜在模型具有稀疏表示时通常需要使用变量选择方法,确定模型中的重要预测因子可提高被拟合模型的预测性能,许多文献研究了这类问题,其中张和吕[1]针对右删失数据开发了一种基于比例风险模型的变量选择方法.本文研究了基于当前状态数据的加法风险模型的变量选择问题.在文献[1]的启发下,我们提出一种自适应Lasso方法来解决...  相似文献   

18.
变量选择是统计建模中重要的问题。当试验数据维数很高时,传统变量选择方法的应用受到了很多制约。本文以高维混料试验为基础,比较了AIC准则和LASSO在变量选择问题上的优良性。通过实例验证,LASSO可以快速且准确地对高维混料模型中的变量进行筛选,从而得出最优模型,达到降低成本、提高利益的目的。  相似文献   

19.
大数据通常由不同来源的数据组合而成,且具有高维特征,挖掘不同来源数据间的异质性和关联性并降维是亟需解决的问题.基于此,文章提出了分位数惩罚整合模型,并给出其模型表示和模型算法.该模型既可以对不同来源数据进行建模和变量选择,又同时考虑了不同来源数据间的异质性和关联性.数值模拟结果表明:分位数惩罚整合模型在预测性能和变量选择方面都具有明显的优势.此外,将该模型应用于商业银行系统性风险测度中发现,分位数惩罚整合模型在实际应用中也有较好的表现.  相似文献   

20.
医学研究表明约30%的扩张型心肌病与遗传因素有关,因此从基因水平寻找其病因及发病机制越来越引起国内外学者的重视.采用针对超高维数据的序贯模型平均(SMA)方法对扩张型心肌病转基因小鼠微阵列数据建立回归模型,确定哪些基因对小鼠中G蛋白偶联受体的过表达有影响从而导致小鼠的心肌病,结果发现Msa.2877.0,Msa.741.0,Msa.768.0和Msa.2604.0四个基因是影响小鼠扩张型心肌病的主要基因,且SMA对该数据的拟合和预测都明显优于以往常用的SIS,L2boost及Lasso等变量选择方法.研究结果对进一步了解人类心脏病的发病机理有一定的借鉴意义.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号