首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 46 毫秒
1.
随着大数据时代的到来,分布式存储系统被广泛应用,这使得数据的分析面临较大的挑战。本文主要基于文[1]提出的两步子抽样算法思想,提出分布式两步子抽样算法,利用该算法得到的参数估计量具有一致性和渐近正态性。采用数值模拟及真实数据预测,进一步对算法进行评估,结果表明,分布式两步子抽样算法与简单随机抽样算法相比精度更高,与全样本相比,在保证精度损失很小的基础上,节约了CPU运行时间,提高了算法效率。  相似文献   

2.
针对海量数据,子抽样算法是当前一种流行的简化计算和降低计算成本的方法。现阶段的研究主要集中于单目标变量的估计上。多目标抽样也是现实生活中经常遇到的问题。本文提出基于广义线性模型,多目标抽样的均值两步子抽样算法。两步子抽样算法是Wang等(2018)[1]提出的基于L-最优和A-最优的思想,确定每个抽样单元的入样概率。本文在此基础上,定义多目标抽样的各单元的入样概率,并推导模型参数估计量的渐近性质,最后用模拟数据和实际例子对均值两步子抽样算法和多目标两步子抽样方法进行比较。结果表明,在样本量相同时,A-最优准则下均值两步子抽样算法在估计精度上优于基于两步子抽样算法的MPPS抽样和L-最优准则下均值多目标两步子抽样算法。在计算效率上也较全样本估计有显著的提高,节约了计算时间。  相似文献   

3.
随着大数据时代的到来,P2P网络借贷的数据规模日益庞大,导致P2P网络借贷信用风险比传统的金融借贷信用风险更加难以预测,使得大量的P2P机构面临倒闭.文章运用美国Lending Club网站2017-2018年的数据,采取两步子抽样方法抽取样本,建立logistic回归模型对P2P网络借贷信用风险进行预测.研究结果表明...  相似文献   

4.
无偏的岭回归迭代算法   总被引:1,自引:0,他引:1  
本文探讨线性模型的无偏的岭回归迭代算法,这种算法保持最小二乘法的性质,当存在较为严重的共线性时,它能给出较为精确的参数及其协差阵的估计值;当存在严格的共线性时,给出参数及其协差阵的无穷多解中的一个,这个解由初值决定。文章还给出了算法的收敛性及一些其它性质的证明。  相似文献   

5.
随着科学技术的发展,虽然人们提高了收集和处理数据的能力,但仍存在一些大数据集超出了现有计算机的计算能力.目前,抽取一部分样本来替代全样本进行建模计算是减轻计算负担的一种方法.大数据背景下线性模型的子抽样方法已经得到了相对成熟的研究,在减轻计算量方面获得了很大的优势.文章将线性模型下的子抽样方法推广到非参数回归模型,并推...  相似文献   

6.
灰色系统模型的优化岭回归算法   总被引:3,自引:0,他引:3  
文献[1]指出了目前用普通最小二乘法估计灰微分方程参数的方法由于方程组的病态问题很难求解得合理的参数;文献[2]指出了根据初值求解灰色系统模型的时间响应式的方法由于初值的误差使所求得时间响应式产生系统误差.为了克服灰色模型的上述两个缺点,本文设计了一种求解灰色系统模型的优化岭回归算法,计算一个广泛引用的算例演示了这种算法的优越性.  相似文献   

7.
为应对分布式大数据对传统统计建模分析带来的巨大挑战,考虑Expec tile回归模型以实现基于分布式大数据的有效数据处理和统计推断.其新颖之处在于对分布式存储于每台机器中的数据,分别应用Expectile回归,再通过平均方法聚合这些回归结果并进行综合推断.在算法上,考虑在处理大数据计算中热门的交替方向乘子算法(ADMM)基础上,提出了分块ADMM算法,该迭代算法易于并行计算,结果稳健,而且可以显著减少存储大数据所需的容量.不仅基于分布式大数据的Expectile回归模型的参数估计具有良好的有效性和渐近性质,而且数值模拟和实证分析也都验证了该方法在处理分布式大数据时的有效性.  相似文献   

8.
在抽样估计中,当超总体模型为非线性形式时,广义回归估计量和最优估计量的估计效果均有待提高,而非参数回归估计量虽然能在一定程度上提高估计精度,但需要获得全部总体单位的辅助变量值,这在实际调查中往往难以满足。本文基于传统的广义回归估计量和最优估计量,借鉴非参数回归中局部多项式的估计思想,对原始辅助变量信息进行扩展,得到原始辅助变量多次方形式的新辅助变量,进而研究提出广义最优回归估计量。该估计量可以克服广义回归估计量、最优估计量和非参数回归估计量的缺陷,并证明其满足渐近无偏性和一致性。在不同超总体模型下,通过数值模拟方法比较了各类回归抽样估计方法的估计效果,模拟结果显示:在线性模型下,除了π估计量的精度较差,其余各类估计量的估计精度基本相同;但在非线性模型下,最优估计量和广义回归估计量的估计精度明显下降,而广义最优回归估计量和非参数的局部多项式回归估计量的估计精度都较好。  相似文献   

9.
在抽样估计中,当研究变量与辅助变量之间呈非线性关系时,传统的校准估计方法效果较差,基于非参数回归方法的模型校准估计量则可以很好地解决这一问题。首先,建立描述研究变量和辅助变量之间关系的超总体回归模型,使用非参数中的局部多项式方法得出模型参数的拟合值,并结合校准估计得出局部多项式模型校准估计量,同时给出其方差和方差估计量公式,证明了该估计量具有渐近无偏性、一致性和渐近正态性等优良的统计性质。然后,使用仿真模拟的方法证明在研究变量与研究变量之间呈非线性关系时,该估计量有良好的估计效果。最后,对该估计量在我国政府统计中的应用进行简单的介绍。  相似文献   

10.
为解决传统的支持向量回归模型在处理大规模数据时计算效率较低的局限,文章将交互有效方法与支持向量回归模型相结合,提出了基于交互有效方法的分布式支持向量回归模型(CE-SVR).该模型首先采用分布式存储方式将大规模数据随机分配给多台机器,其次采用交互有效方法构建支持向量回归的近似损失函数替代全局损失函数获得近似预测结果,能够有效地分析大规模数据.数值模拟和应用研究的结果表明:在线性模型中,文章所提出模型的预测性能与全局支持向量回归模型基本一致,且显著优于基于单轮型方法的分布式支持向量回归模型(OS-SVR);在非线性模型中,文章所提出模型的预测性能会随着机器数的增加而降低,但其预测性能显著优于OS-SVR模型.  相似文献   

11.
The variants of randomized Kaczmarz and randomized Gauss-Seidel algorithms are two effective stochastic iterative methods for solving ridge regression problems. For solving ordinary least squares regression problems, the greedy randomized Gauss-Seidel (GRGS) algorithm always performs better than the randomized Gauss-Seidel algorithm (RGS) when the system is overdetermined. In this paper, inspired by the greedy modification technique of the GRGS algorithm, we extend the variant of the randomized Gauss-Seidel algorithm, obtaining a variant of greedy randomized Gauss-Seidel (VGRGS) algorithm for solving ridge regression problems. In addition, we propose a relaxed VGRGS algorithm and the corresponding convergence theorem is established. Numerical experiments show that our algorithms outperform the VRK-type and the VRGS algorithms when $m > n$.  相似文献   

12.
Scattered data collected at sample points may be used to determine simple functions to best fit the data. An ideal choice for these simple functions is bivariate splines. Triangulation of the sample points creates partitions over which the bivariate splines may be defined. But the optimality of the approximation is dependent on the choice of triangulation. An algorithm, referred to as an Edge Swapping Algorithm, has been developed to transform an arbitrary triangulation of the sample points into an optimal triangulation for representation of the scattered data. A Matlab package has been completed that implements this algorithm for any triangulation on a given set of sample points.  相似文献   

13.
归庆明 《数学研究》1994,27(2):76-81
对于一类相依线性回归系统,本文提出了一种泛岭改进估计,并讨论了这种估计及相应的两步估计的优良性质,获得了若干深入的结果.  相似文献   

14.
非凸惩罚函数包括SCAD惩罚和MCP惩罚, 这类惩罚函数具有无偏性、连续性和稀疏性等特点,岭回归方法能够很好的克服共线性问题. 本文将非凸惩罚函数和岭回归方法的优势结合起来(简记为 NPR),研究了自变量间存在高相关性问题时NPR估计的Oracle性质. 这里主要研究了参数个数$p_n$ 随样本量$n$ 呈指数阶增长的情况. 同时, 通过模拟研究和实例分析进一步验证了NPR 方法的表现.  相似文献   

15.
为了对比支持向量回归(SVR)和核岭回归(KRR)预测血糖值的效果,本文选择人工智能辅助糖尿病遗传风险的相关数据进行实证分析.首先对数据进行预处理,将处理后的数据导入Python.其次,为了使SVR和KRR的对比结果具有客观性,使用了三种有代表性的核方法(线性核函数,径向基核函数和sigmod核函数).然后,在训练集上采用网格搜索自动调参分别建立SVR和KRR的最优模型,对血糖值进行预测.最后,在测试集上对比分析SVR和KRR预测的均方误差(MSE)和拟合时间等指标.结果表明:均方误差(MSE)都小于0.006,且KRR的MSE比SVR的小0.0002,KRR的预测精度比SVR更高;而SVR的预测时间比KRR的少0.803秒,SVR的预测效率比KRR好.  相似文献   

16.
本文考虑两变量随机系数回归模型在单位正方形设计区域上基于A-,Ds-,I-和D-准则下的最优设计.证明了最优设计可在设计域的顶点处获得,并得到了几类最优设计的解析或数值结果.  相似文献   

17.
文章讨论带测量误差的线性模型中参数估计的问题.当带测量误差的线性模型存在复共线的时候,通过几乎无偏估计的思想,提出了几乎无偏岭估计,并对估计的性质进行分析.通过研究发现几乎无偏岭估计不但能克服复共线性,同时有比较小的均方误差.  相似文献   

18.
房地产行业作为国民经济运行中的重要产业,分析房地产价格的影响因素,对中国宏观经济政策及房地产企业开发战略具有重要的意义.四川省作为西部大开发战略的重要地区,近年来城市化快速发展,笔者应用2000—2011的四川省面板数据,选取了供给方、需求方、以及宏观经济环境一些主要的变量进行理论分析,在此基础上,对这些变量与房地产价格进行多重共线性诊断,采用岭回归方法对四川省房地产价格的影响因素进行研究.最后根据研究结果对四川省房地产业业的健康发展提出具有针对性的政策建议.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号