首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为解决传统的支持向量回归模型在处理大规模数据时计算效率较低的局限,文章将交互有效方法与支持向量回归模型相结合,提出了基于交互有效方法的分布式支持向量回归模型(CE-SVR).该模型首先采用分布式存储方式将大规模数据随机分配给多台机器,其次采用交互有效方法构建支持向量回归的近似损失函数替代全局损失函数获得近似预测结果,能够有效地分析大规模数据.数值模拟和应用研究的结果表明:在线性模型中,文章所提出模型的预测性能与全局支持向量回归模型基本一致,且显著优于基于单轮型方法的分布式支持向量回归模型(OS-SVR);在非线性模型中,文章所提出模型的预测性能会随着机器数的增加而降低,但其预测性能显著优于OS-SVR模型.  相似文献   

2.
随着大数据时代的到来,运用统计的思维和方法挖掘隐藏在数据里的价值成为大数据领域的热门研究方向.数据挖掘的常用方法是回归分析,最小二乘回归只对因变量均值做出估计,而expectile回归可以估计因变量的整体分布.本文以大数据为背景,在expectile回归模型下,提出分布式存储数据的思想,并通过构造全局损失函数的一个替代损失函数,设计Proximal-ADMM算法对模型中的参数进行估计.达到了仅使用局部样本就可有效评估全局损失函数的目的,解决了大数据中样本量大导致的计算成本昂贵的问题.  相似文献   

3.
混合时空地理加权回归模型作为一种有效处理空间数据全局平稳和局部非平稳的分析方法得到了广泛的应用.但其参数估计方法中假定固定系数变量已知且不存在时空效应,这一较强的前提使回归系数的估计值变得极不稳定.为探究当固定系数变量存在时空效应时的参数估计方法,本文提出一种变量选择(Variable Selection)方法来剔除指标间的交互效应,并给出相应的算法过程.通过乌鲁木齐市商品住宅真实价格数据对不同估计方法进行对比验证,结果表明,利用变量选择方法后得到的MGTWR模型性能和拟合效果得到提升,固定回归系数的估计更加稳定,原有参数估计方法得到改善.  相似文献   

4.
本文基于原有的经验似然函数,在经验似然的约束条件中的估计方程上加入Huber函数和权重函数,将经验似然方法和稳健估计方程相结合,再在目标函数中加上SCAD惩罚函数,提出一种稳健的变量选择和惩罚估计方法.通过数值模拟与最小二乘估计和普通的惩罚经验似然估计在变量选择和参数估计方面进行比较,显示本文所提出的基于惩罚稳健经验似然的压缩估计具有明显优势.  相似文献   

5.
多元非参数分位数回归常常是难于估计的, 为了降低维数同时保持非参数估计的灵活性, 人们常常用单指标的方法模拟响应变量的条件分位数. 本文主要研究单指标分位数回归的变量选择. 以最小化平均损失估计为基础, 我们通过最小化具有SCAD惩罚项的平均损失进行变量选择和参数估计. 在正则条件下, 得到了单指标分位数回归SCAD变量选择的Oracle性质, 给出了SCAD变量选择的计算方法, 并通过模拟研究说明了本文所提方法变量选择的样本性质.  相似文献   

6.
本文针对带有组结构的广义线性稀疏模型,引入布雷格曼散度作为一般性的损失函数,进行参数估计和变量选择,使得该方法不局限于特定模型或特定的损失函数.本文比较研究了Ridge,SACD,Lasso,自适应Lasso,组Lasso,分层Lasso,自适应分层Lasso和稀疏组Lasso共8种惩罚函数的特点和引入模型后参数估计和...  相似文献   

7.
植物遗传与基因组学研究表明许多重要的农艺性状有影响的基因位点不是稀疏的,受到大量微效基因的影响,并且还存在基因交互项的影响.本文基于重要油料作物油菜的花期数据,研究中等稀疏条件下的基因选择问题,提出了一种两步Bayes模型选择方法.考虑基因间的交互作用,模型的维数急剧增长,加上数据结构特别,通常的变量选择方法效果不好.本文提出两步变量选择的方法:首先利用Kolmogorov特征扫描方法筛除那些明显不重要的变量,达到降维的目的;其次,在选出的位点中考虑交互作用.为了克服Bayes方法计算速度慢的问题,本文在模型中引入指示变量,通过估计指示变量的后验分布选择模型.模拟结果表明本文提出的方法在预测精度和计算稳定性上有良好的表现,与不加指示变量的Bayes方法相比,在预测精度上有很大的提高.最后,利用本文提出的方法分析一个油菜花期数据,发现了一些交互效应的基因位点.  相似文献   

8.
本文在多种复杂数据下, 研究一类半参数变系数部分线性模型的统计推断理论和方法. 首先在纵向数据和测量误差数据等复杂数据下, 研究半参数变系数部分线性模型的经验似然推断问题, 分别提出分组的和纠偏的经验似然方法. 该方法可以有效地处理纵向数据的组内相关性给构造经验似然比函数所带来的困难. 其次在测量误差数据和缺失数据等复杂数据下, 研究模型的变量选择问题, 分别提出一个“纠偏” 的和基于借补值的变量选择方法. 该变量选择方法可以同时选择参数分量及非参数分量中的重要变量, 并且变量选择与回归系数的估计同时进行. 通过选择适当的惩罚参数, 证明该变量选择方法可以相合地识别出真实模型, 并且所得的正则估计具有oracle 性质.  相似文献   

9.
《大学数学》2015,(6):20-25
探究了在平稳遍历函数型数据下条件风险率函数的非参数核估计问题,本文基于N-W核估计的方法,构造响应变量Y在给定函数型解释变量X下的条件风险率函数非参数核估计,在一定条件下获得条件风险率函数非参数估计的偏差表达式.  相似文献   

10.
基于逆概率加权方法研究了响应变量缺失下非线性回归模型的参数估计问题,提出了一种利用广义部分线性单指标模型对选择概率建模的加权半参数估计方法.从理论上证明了所得估计量具有渐近正态性,并通过数据模拟分析研究了所提方法在有限样本下的表现.  相似文献   

11.
Lasso是机器学习中比较常用的一种变量选择方法,适用于具有稀疏性的回归问题.当样本量巨大或者海量的数据存储在不同的机器上时,分布式计算是减少计算时间提高效率的重要方式之一.本文在给出Lasso模型等价优化模型的基础上,将ADMM算法应用到此优化变量可分离的模型中,构造了一种适用于Lasso变量选择的分布式算法,证明了...  相似文献   

12.
主要研究因变量存在缺失且协变量部分包含测量误差情形下,如何对变系数部分线性模型同时进行参数估计和变量选择.我们利用插补方法来处理缺失数据,并结合修正的profile最小二乘估计和SCAD惩罚对参数进行估计和变量选择.并且证明所得的估计具有渐近正态性和Oracle性质.通过数值模拟进一步研究所得估计的有限样本性质.  相似文献   

13.
在生物医学研究中,研究个体的失效时间往往存在删失,Cox比例风险模型是经常被用来处理此类删失数据的模型.对于带有删失的高维数据,如何从众多协变量中挑选出少数的致病因素是研究者的兴趣所在.本文针对高维删失数据利用SELO惩罚函数考虑了基于Cox比例风险模型框架下的变量选择及参数估计问题.在允许协变量维数发散的条件下,本文给出SELO惩罚估计量的相合性以及oracle性质.计算方面若采用传统方法计算惩罚估计解,当协变量维数较高时计算Hesse阵的逆矩阵需要花费大量的时间,且SELO惩罚函数在原点的不光滑性也给计算SELO惩罚估计带来很大难度.为此,本文利用光滑化技术对SELO惩罚函数进行近似,并利用DFP公式去代替Hesse阵的逆矩阵,进而提出了MSQN算法.模拟计算的结果表明,SELO惩罚方法比已有常用的惩罚方法表现更好,而且本文提出的新算法与常用的坐标下降算法相比表现更优.在真实数据部分,本文还分析了乳腺癌数据,并利用留一交叉验证法来评估预测的好坏.  相似文献   

14.
EBT(Energy Bagging Tree)模型是基于能量距离的多元bagging,模型中的不纯度函数采用广义基尼均值差,分裂函数是样本落入分裂的两个子节点的概率和能量距离的乘积.新的变量选择方法基于EBT模型中分裂变量的频率,通过变量重要性的计算,为变量选择提供了依据.模拟分析显示,新方法和已有的多元随机森林算法在变量重要性排序的比较中具有优势.在建筑行业的混凝土实际数据上的表现进一步评估了新方法的性能.  相似文献   

15.
介绍了流图模型的矩生成函数的计算及其鞍点逼近问题.给出了矩生成函数的另一种推导方法并利用Maple计算相关方程.利用矩模拟的方法进行参数估计,得到了概率密度函数、生存函数和危险函数的鞍点逼近.结果表明鞍点逼近算法能较好地捕捉实际函数曲线的动态演变,且达到了估计误差小和逼近精度高的预期目标.  相似文献   

16.
分位数变系数模型是一种稳健的非参数建模方法.使用变系数模型分析数据时,一个自然的问题是如何同时选择重要变量和从重要变量中识别常数效应变量.本文基于分位数方法研究具有稳健和有效性的估计和变量选择程序.利用局部光滑和自适应组变量选择方法,并对分位数损失函数施加双惩罚,我们获得了惩罚估计.通过BIC准则合适地选择调节参数,提出的变量选择方法具有oracle理论性质,并通过模拟研究和脂肪实例数据分析来说明新方法的有用性.数值结果表明,在不需要知道关于变量和误差分布的任何信息前提下,本文提出的方法能够识别不重要变量同时能区分出常数效应变量.  相似文献   

17.
《数理统计与管理》2019,(6):977-985
在纵向抽样调查活动中,常出现变量数据缺失的情况,如何对含缺失的数据集进行总体参数估计是一个热点话题。目前已有方法主要适用于随机缺失机制下的缺失数据分析问题,常采用插补法生成完整数据集,基于此进行参数估计。本文在非随机数据缺失机制下,研究了几种基于模型的参数似然估计方法,包括模式混合模型法和选择模型法,对单调缺失模式下含缺失纵向调查数据给出了参数估计范例,进而引入随机效应参数,将两种方法加以推广。  相似文献   

18.
孙桂萍  赵目  周勇 《数学学报》2022,(4):607-624
剩余寿命是刻画个体预期寿命的一个重要度量,对剩余寿命的早期研究主要集中在剩余均值上.然而当总体生存函数偏态或厚尾时剩余均值函数可能不存在,因此统计学者建议用剩余寿命分位数来刻画预期寿命.在完全数据和右删失数据下,剩余寿命分位数的建模和理论已经很完善.但是,在实际的调查研究中经常会遇到偏差抽样数据.例如,临床医学中的左截断数据,流行病学中的病例队列抽样数据,医学大型队列研究中的长度偏差抽样数据等等.忽略抽样偏差会导致参数估计有偏和不合理的推断结果.本文考虑一般偏差右删失数据下剩余寿命分位数回归的统计推断问题.首先,我们提出了一个一般偏差右删失数据下的剩余寿命分位数回归模型,并利用一般估计方程方法对模型中的参数进行了估计.针对已有文献常用的删失变量与协变量独立性假设,本文重点考虑了删失变量依赖于协变量场合.其次,由于估计量的渐近方差中涉及非参密度函数,在估计渐近方差时,本文采用Bootstrap方法.最后,数值模拟显示本文提出的方法有限样本性质表现很好.  相似文献   

19.
针对不连续无约束全局优化问题,构造且运用对数变差积分来进行研究和求解.具体给出了对数变差积分函数的分析性质及其全局优化问题的最优性条件和概念性算法.结合Monte-Carlo技术,特别针对n=100个变量、具有不连续目标函数的三个具体实例进行了数值试验,计算结果也表明所给方法的可行性和有效性.  相似文献   

20.
在大数据分析中,由于数据量巨大,储存于不同的机器中,常用的统计分析方法不能直接适用.因此需要对数据进行分布式计算.无论是分而治之还是多中心数据都需要对数据或计算中间结果进行传输.传输中不仅需要对数据进行隐私保护,也需要保证传输的高效性,同时传输次数过多不仅影响计算的效率,对数据的隐私保护也更有挑战.受此启发,本文在差分隐私模型下,提出了用于高效通讯的分布式参数估计算法中的隐私保护方案,并且严格证明了该方案既能有效保护数据安全,又不影响参数估计的有效性.最后,本文就线性模型下基于差分隐私保护算法的参数估计进行了模拟和实例验证.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号