共查询到20条相似文献,搜索用时 15 毫秒
1.
为解决传统的支持向量回归模型在处理大规模数据时计算效率较低的局限,文章将交互有效方法与支持向量回归模型相结合,提出了基于交互有效方法的分布式支持向量回归模型(CE-SVR).该模型首先采用分布式存储方式将大规模数据随机分配给多台机器,其次采用交互有效方法构建支持向量回归的近似损失函数替代全局损失函数获得近似预测结果,能够有效地分析大规模数据.数值模拟和应用研究的结果表明:在线性模型中,文章所提出模型的预测性能与全局支持向量回归模型基本一致,且显著优于基于单轮型方法的分布式支持向量回归模型(OS-SVR);在非线性模型中,文章所提出模型的预测性能会随着机器数的增加而降低,但其预测性能显著优于OS-SVR模型. 相似文献
2.
《数学的实践与认识》2020,(14)
随着大数据时代的到来,运用统计的思维和方法挖掘隐藏在数据里的价值成为大数据领域的热门研究方向.数据挖掘的常用方法是回归分析,最小二乘回归只对因变量均值做出估计,而expectile回归可以估计因变量的整体分布.本文以大数据为背景,在expectile回归模型下,提出分布式存储数据的思想,并通过构造全局损失函数的一个替代损失函数,设计Proximal-ADMM算法对模型中的参数进行估计.达到了仅使用局部样本就可有效评估全局损失函数的目的,解决了大数据中样本量大导致的计算成本昂贵的问题. 相似文献
3.
混合时空地理加权回归模型作为一种有效处理空间数据全局平稳和局部非平稳的分析方法得到了广泛的应用.但其参数估计方法中假定固定系数变量已知且不存在时空效应,这一较强的前提使回归系数的估计值变得极不稳定.为探究当固定系数变量存在时空效应时的参数估计方法,本文提出一种变量选择(Variable Selection)方法来剔除指标间的交互效应,并给出相应的算法过程.通过乌鲁木齐市商品住宅真实价格数据对不同估计方法进行对比验证,结果表明,利用变量选择方法后得到的MGTWR模型性能和拟合效果得到提升,固定回归系数的估计更加稳定,原有参数估计方法得到改善. 相似文献
4.
5.
6.
7.
植物遗传与基因组学研究表明许多重要的农艺性状有影响的基因位点不是稀疏的,受到大量微效基因的影响,并且还存在基因交互项的影响.本文基于重要油料作物油菜的花期数据,研究中等稀疏条件下的基因选择问题,提出了一种两步Bayes模型选择方法.考虑基因间的交互作用,模型的维数急剧增长,加上数据结构特别,通常的变量选择方法效果不好.本文提出两步变量选择的方法:首先利用Kolmogorov特征扫描方法筛除那些明显不重要的变量,达到降维的目的;其次,在选出的位点中考虑交互作用.为了克服Bayes方法计算速度慢的问题,本文在模型中引入指示变量,通过估计指示变量的后验分布选择模型.模拟结果表明本文提出的方法在预测精度和计算稳定性上有良好的表现,与不加指示变量的Bayes方法相比,在预测精度上有很大的提高.最后,利用本文提出的方法分析一个油菜花期数据,发现了一些交互效应的基因位点. 相似文献
8.
本文在多种复杂数据下, 研究一类半参数变系数部分线性模型的统计推断理论和方法. 首先在纵向数据和测量误差数据等复杂数据下, 研究半参数变系数部分线性模型的经验似然推断问题, 分别提出分组的和纠偏的经验似然方法. 该方法可以有效地处理纵向数据的组内相关性给构造经验似然比函数所带来的困难. 其次在测量误差数据和缺失数据等复杂数据下, 研究模型的变量选择问题, 分别提出一个“纠偏” 的和基于借补值的变量选择方法. 该变量选择方法可以同时选择参数分量及非参数分量中的重要变量, 并且变量选择与回归系数的估计同时进行. 通过选择适当的惩罚参数, 证明该变量选择方法可以相合地识别出真实模型, 并且所得的正则估计具有oracle 性质. 相似文献
9.
10.
《数学的实践与认识》2016,(24)
基于逆概率加权方法研究了响应变量缺失下非线性回归模型的参数估计问题,提出了一种利用广义部分线性单指标模型对选择概率建模的加权半参数估计方法.从理论上证明了所得估计量具有渐近正态性,并通过数据模拟分析研究了所提方法在有限样本下的表现. 相似文献
11.
Lasso是机器学习中比较常用的一种变量选择方法,适用于具有稀疏性的回归问题.当样本量巨大或者海量的数据存储在不同的机器上时,分布式计算是减少计算时间提高效率的重要方式之一.本文在给出Lasso模型等价优化模型的基础上,将ADMM算法应用到此优化变量可分离的模型中,构造了一种适用于Lasso变量选择的分布式算法,证明了... 相似文献
12.
主要研究因变量存在缺失且协变量部分包含测量误差情形下,如何对变系数部分线性模型同时进行参数估计和变量选择.我们利用插补方法来处理缺失数据,并结合修正的profile最小二乘估计和SCAD惩罚对参数进行估计和变量选择.并且证明所得的估计具有渐近正态性和Oracle性质.通过数值模拟进一步研究所得估计的有限样本性质. 相似文献
13.
在生物医学研究中,研究个体的失效时间往往存在删失,Cox比例风险模型是经常被用来处理此类删失数据的模型.对于带有删失的高维数据,如何从众多协变量中挑选出少数的致病因素是研究者的兴趣所在.本文针对高维删失数据利用SELO惩罚函数考虑了基于Cox比例风险模型框架下的变量选择及参数估计问题.在允许协变量维数发散的条件下,本文给出SELO惩罚估计量的相合性以及oracle性质.计算方面若采用传统方法计算惩罚估计解,当协变量维数较高时计算Hesse阵的逆矩阵需要花费大量的时间,且SELO惩罚函数在原点的不光滑性也给计算SELO惩罚估计带来很大难度.为此,本文利用光滑化技术对SELO惩罚函数进行近似,并利用DFP公式去代替Hesse阵的逆矩阵,进而提出了MSQN算法.模拟计算的结果表明,SELO惩罚方法比已有常用的惩罚方法表现更好,而且本文提出的新算法与常用的坐标下降算法相比表现更优.在真实数据部分,本文还分析了乳腺癌数据,并利用留一交叉验证法来评估预测的好坏. 相似文献
14.
《数学的实践与认识》2017,(20)
EBT(Energy Bagging Tree)模型是基于能量距离的多元bagging,模型中的不纯度函数采用广义基尼均值差,分裂函数是样本落入分裂的两个子节点的概率和能量距离的乘积.新的变量选择方法基于EBT模型中分裂变量的频率,通过变量重要性的计算,为变量选择提供了依据.模拟分析显示,新方法和已有的多元随机森林算法在变量重要性排序的比较中具有优势.在建筑行业的混凝土实际数据上的表现进一步评估了新方法的性能. 相似文献
15.
16.
分位数变系数模型是一种稳健的非参数建模方法.使用变系数模型分析数据时,一个自然的问题是如何同时选择重要变量和从重要变量中识别常数效应变量.本文基于分位数方法研究具有稳健和有效性的估计和变量选择程序.利用局部光滑和自适应组变量选择方法,并对分位数损失函数施加双惩罚,我们获得了惩罚估计.通过BIC准则合适地选择调节参数,提出的变量选择方法具有oracle理论性质,并通过模拟研究和脂肪实例数据分析来说明新方法的有用性.数值结果表明,在不需要知道关于变量和误差分布的任何信息前提下,本文提出的方法能够识别不重要变量同时能区分出常数效应变量. 相似文献
17.
18.
剩余寿命是刻画个体预期寿命的一个重要度量,对剩余寿命的早期研究主要集中在剩余均值上.然而当总体生存函数偏态或厚尾时剩余均值函数可能不存在,因此统计学者建议用剩余寿命分位数来刻画预期寿命.在完全数据和右删失数据下,剩余寿命分位数的建模和理论已经很完善.但是,在实际的调查研究中经常会遇到偏差抽样数据.例如,临床医学中的左截断数据,流行病学中的病例队列抽样数据,医学大型队列研究中的长度偏差抽样数据等等.忽略抽样偏差会导致参数估计有偏和不合理的推断结果.本文考虑一般偏差右删失数据下剩余寿命分位数回归的统计推断问题.首先,我们提出了一个一般偏差右删失数据下的剩余寿命分位数回归模型,并利用一般估计方程方法对模型中的参数进行了估计.针对已有文献常用的删失变量与协变量独立性假设,本文重点考虑了删失变量依赖于协变量场合.其次,由于估计量的渐近方差中涉及非参密度函数,在估计渐近方差时,本文采用Bootstrap方法.最后,数值模拟显示本文提出的方法有限样本性质表现很好. 相似文献
19.
针对不连续无约束全局优化问题,构造且运用对数变差积分来进行研究和求解.具体给出了对数变差积分函数的分析性质及其全局优化问题的最优性条件和概念性算法.结合Monte-Carlo技术,特别针对n=100个变量、具有不连续目标函数的三个具体实例进行了数值试验,计算结果也表明所给方法的可行性和有效性. 相似文献
20.
在大数据分析中,由于数据量巨大,储存于不同的机器中,常用的统计分析方法不能直接适用.因此需要对数据进行分布式计算.无论是分而治之还是多中心数据都需要对数据或计算中间结果进行传输.传输中不仅需要对数据进行隐私保护,也需要保证传输的高效性,同时传输次数过多不仅影响计算的效率,对数据的隐私保护也更有挑战.受此启发,本文在差分隐私模型下,提出了用于高效通讯的分布式参数估计算法中的隐私保护方案,并且严格证明了该方案既能有效保护数据安全,又不影响参数估计的有效性.最后,本文就线性模型下基于差分隐私保护算法的参数估计进行了模拟和实例验证. 相似文献