首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
EBT(Energy Bagging Tree)模型是基于能量距离的多元bagging,模型中的不纯度函数采用广义基尼均值差,分裂函数是样本落入分裂的两个子节点的概率和能量距离的乘积.新的变量选择方法基于EBT模型中分裂变量的频率,通过变量重要性的计算,为变量选择提供了依据.模拟分析显示,新方法和已有的多元随机森林算法在变量重要性排序的比较中具有优势.在建筑行业的混凝土实际数据上的表现进一步评估了新方法的性能.  相似文献   

2.
利用正则化方法来进行变量选择是近年来研究的热点.在实际应用中解释变量常常以组的形式存在,通常我们希望将重要的组和组内重要的协变量选择出来,即双重变量选择.基于两种非凸惩罚函数SCAD和MCP,分别提出了稀疏Group SCAD和稀疏Group MCP估计方法,通过分块坐标下降迭代算法,达到组内和组间变量同时稀疏的效果.数值模拟结果表明本文提出的两种方法在模型预测和变量选择能力上优于Group Lasso和稀疏Group Lasso算法.并将该算法有效地应用于实际的初生儿体重数据集分析中.  相似文献   

3.
基于蚁群算法的模糊分类系统设计   总被引:1,自引:0,他引:1  
提出了一种基于最大-最小蚁群算法的模糊分类系统设计方法.该方法通过两个阶段来实现:特征变量选择和模型参数优化.首先采用蚁群算法对特征变量进行选择,得到一组具有较高分辩性能的特征变量,提高模型的解释性;在模型结构确定后,蚁群算法从训练样本中提取信息对模型的参数进行优化,在保证模型精确性的前提下,构造具有较少变量数目及规则数目的模糊模型,实现了精确性与解释性的折衷.最后将本方法运用到Iris和Wine数据样本分类问题中,并将结果与其它方法进行比较,仿真结果证明了该方法的有效性.  相似文献   

4.
在海量征信数据的背景下,为降低缺失数据插补的计算成本,提出收缩近邻插补方法.收缩近邻方法通过三阶段完成数据插补,第一阶段基于样本和变量的缺失比例计算入样概率,通过不等概抽样完成数据的收缩,第二阶段基于样本间距离,选取与缺失样本近邻的样本组成训练集,第三阶段建立随机森林模型进行迭代插补.利用Australian数据集和中国各银行数据集进行模拟研究,结果表明在确保一定插补精度的情况下,收缩近邻方法较大程度减少了计算量.  相似文献   

5.
郑健  刘人境 《运筹与管理》2022,31(9):210-216
在电力体制改革全面深化的背景下,我国西部偏远地区的电力企业面临较为严重的人员流失问题。员工离职预测越来越受到电力企业关注,然而传统预测算法无法有效解决电力企业员工离职数据集的不平衡问题。基于此,本文提出一种基于区间变量的随机森林算法,采用青海省电力公司2009~2017年人力资源数据集进行实证分析,并与决策树、支持向量机、随机森林算法的预测效果进行对比。结果表明,该算法更适合解决数据不平衡问题,具有更高的预测精度;同时分析得到员工离职的重要特征,为相关电力企业人力资源管理提供决策依据。  相似文献   

6.
在要求可解释性的机器学习和统计应用中,变量选择对分类和回归任务十分重要.本文提出了一种基于Copula熵的变量选择方法,利用Copula熵值的阶次选择变量.本方法既是模型无关的又是参数无关的.在UCI心脏病数据的基础上进行了本方法与传统变量选择方法(包括距离相关、希尔伯特-施密特独立性准则、逐步选择、正则化广义线性模型和自适应LASSO)的对比实验.实验结果表明,基于Copula熵的方法能够更有效地选择‘正确’的变量,在不牺牲准确性性能的同时得到比传统方法更具可解释性的模型.  相似文献   

7.
利用随机森林特征选择算法,对信用评估的可用指标集进行特征选择,在此基础上建立基于随机森林融合朴素贝叶斯的信用评估模型.选取UCI数据库中的German数据集进行实证研究,结果表明,通过随机森林进行特征选择的随机森林融合朴素贝叶斯模型具有更高的预测准确度.  相似文献   

8.
陶朝杰  杨进 《经济数学》2020,37(3):214-220
虚假评论是电商发展过程中一个无法避免的难题. 针对在线评论数据中样本类别不平衡情况,提出基于BalanceCascade-GBDT算法的虚假评论识别方法. BalanceCascade算法通过设置分类器的误报率逐步缩小大类样本空间,然后集成所有基分类器构建最终分类器. GBDT以其高准确性和可解释性被广泛应用于分类问题中,并且作为样本扰动不稳定算法,是十分合适的基分类模型. 模型基于Yelp评论数据集,采用AUC值作为评价指标,并与逻辑回归、随机森林以及神经网络算法进行对比,实验证明了该方法的有效性.  相似文献   

9.
研究数据集被分割并存储于不同处理器时的特征提取和变量选择问题,其中处理器通过某种网络结构相互连接.提出分布式L_(1/2)正则化方法,基于ADMM算法给出分布式L_(1/2)正则化算法,证明了算法的收敛性.算法通过相邻处理器之间完成信息交互,其变量选择结果与数据集不分割时利用L_(1/2)正则化相同.实验表明,所提出的新算法有效、实用,适合于分布式存储数据处理.  相似文献   

10.
本文在多种复杂数据下, 研究一类半参数变系数部分线性模型的统计推断理论和方法. 首先在纵向数据和测量误差数据等复杂数据下, 研究半参数变系数部分线性模型的经验似然推断问题, 分别提出分组的和纠偏的经验似然方法. 该方法可以有效地处理纵向数据的组内相关性给构造经验似然比函数所带来的困难. 其次在测量误差数据和缺失数据等复杂数据下, 研究模型的变量选择问题, 分别提出一个“纠偏” 的和基于借补值的变量选择方法. 该变量选择方法可以同时选择参数分量及非参数分量中的重要变量, 并且变量选择与回归系数的估计同时进行. 通过选择适当的惩罚参数, 证明该变量选择方法可以相合地识别出真实模型, 并且所得的正则估计具有oracle 性质.  相似文献   

11.
构建了基于二阶段异质随机森林的汽油辛烷值预测模型.首先利用样本-位点信息表知识约简模型,筛选出对汽油辛烷值影响大的位点数据作为第一阶段;然后,利用集成学习思想集成支持向量回归和动态时间序列神经网络,构建异质随机森林预测模型作为第二阶段.利用十折交叉法验证模型精度,结果表明该集成学习算法具有有效性和高精度.  相似文献   

12.
本文基于中国市场3465家上市公司7年的数据,首先利用随机森林算法提取出43个因子,再利用Lasso方法进行特征选取,最后选出11个重要因子,然后分别采用logistic回归和决策树方法构建两种预测模型,最后基于损失函数确定权重将两种预测模型按权重进行线性组合建立组合模型.实证结果表明,基于组合模型的预测准确率相比单一模型提高了1.39%.  相似文献   

13.
通过引入全局损失函数,提出了一种全局优化的随机森林模型算法,称为θ-β型随机森林,并且利用改进后的模型对城市遥感图进行了检测与识别,识别准确率与识别速率都得到了一定的提高.方法在经典随机森林模型的基础上加入前向反馈模型(Forward Stagewise Additive Model),通过每一层节点的训练结果干预下一层的训练数据(从而改变阈值θ的选择)与训练步长(β),使得最后训练得到的型随机森林收敛速度更快,预测结果更为准确.  相似文献   

14.
PageRank和BrowseRank算法是近年来针对网页重要性排序提出的两类典型算法.本文基于更新过程,通过遍历理论分析对比两类网页重要性排序算法,发现它们都利用随机游走的思想来模拟用户在互联网上浏览网页的行为,不同的是前者是离散时间参数的马尔可夫链而后者是连续时间参数的.而且它们所利用的数据也不同,前者基于网络链接图而后者是从真实用户浏览日志中生成的用户浏览图.此外,我们还证明随机游走的平稳分布是对网页重要性的一个合理且可行的衡量方法,并给出目前一些文献中所获得的实验结果的概率解释和意义.  相似文献   

15.
在生存分析中,已有一些文献提出处理普通时间事件数据的Cox模型的超高维变量选择方法.然而,对于个体处在多个互斥事件的风险下,即存在竞争风险情形,并不能直接应用这些方法.一个分析竞争风险数据的常用模型就是比例子分布风险(proportional subdistribution hazard,PSH)模型.本文基于确定联合筛选(sure joint screening,SJS)和惩罚近似对数部分似然,对于超高维的PSH模型提出了两阶段变量选择方法,并证明了第一步特征筛选方法的确定筛选性质(sure screening property),即选出的变量集合以概率1渐近地包含实际的显著变量.本文通过Monte Carlo模拟展现了方法的性能和表现,并与确定独立筛选(sure independence screening)方法进行了比较.最后将方法应用到一个关于膀胱癌的公开数据集的分析中.  相似文献   

16.
通过引入潜在变量得到了截尾情形屏蔽数据下指数分布两部件串联系统交点模型较简单的似然函数.利用Gibbs抽样与Metropolis-Hastings算法相结合的MCMC方法对各参数进行了抽样.基于Gibbs样本对参数进行估计.随机模拟的结果表明估计的精度较高.  相似文献   

17.
植物遗传与基因组学研究表明许多重要的农艺性状有影响的基因位点不是稀疏的,受到大量微效基因的影响,并且还存在基因交互项的影响.本文基于重要油料作物油菜的花期数据,研究中等稀疏条件下的基因选择问题,提出了一种两步Bayes模型选择方法.考虑基因间的交互作用,模型的维数急剧增长,加上数据结构特别,通常的变量选择方法效果不好.本文提出两步变量选择的方法:首先利用Kolmogorov特征扫描方法筛除那些明显不重要的变量,达到降维的目的;其次,在选出的位点中考虑交互作用.为了克服Bayes方法计算速度慢的问题,本文在模型中引入指示变量,通过估计指示变量的后验分布选择模型.模拟结果表明本文提出的方法在预测精度和计算稳定性上有良好的表现,与不加指示变量的Bayes方法相比,在预测精度上有很大的提高.最后,利用本文提出的方法分析一个油菜花期数据,发现了一些交互效应的基因位点.  相似文献   

18.
三维定位问题是现代商用通信网络中对于定位系统存在的一个真正具有技术难度的挑战.根据视距传播环境和非视距传播环境的到达时间的数据集,建立线性误差模型;对于无真实位置的竞赛数据集,定义竞赛数据定位误差评估模型;基于不同的空间场景,提出基于空间单元的定位算法;面对高度误差明显高于平面误差的问题,设计基于高斯加权的误差补偿模型;针对最优定位精度最少基站问题,提出基于贪心策略的基站选择算法;考虑轨迹连续性,设计轨迹准确性验证的10-fold交叉验证方法;基于测量距离有限的真实环境,分析平均"连接度数"与定位精度的关系.实验结果表明,提出的定位算法在有效基站数大于等于5时,能获得较好的定位精度.  相似文献   

19.
小额借贷中的个人信用风险问题持续制约着小额贷款行业的健康可持续发展。针对小贷公司在进行信用风险评估时对高违约风险客户识别准确率较低的难题,运用混合式SMOTE、RF算法来同时处理业务数据中高维、非均衡两个问题。本文借助江苏J小贷公司的实例数据,依次构建随机森林(Random Forest, RF)模型、SMOTE-RF模型以及Borderline-SMOTE-RF模型并进行模型测试;再选用SVM算法进行对比实验以此衡量模型的信用风险评价精度。随后基于模型对于指标重要性的评分筛选出6项指标作为影响个人信用风险的关键指标。实验证明基于Borderline-SMOTE-RF算法对于小额贷款个人信用风险评价模型的分类性能最佳;在筛选关键指标时,为避免人工合成虚拟样本对指标重要性影响,需要结合三类模型评分进行综合选择。  相似文献   

20.
针对随机森林算法,研究了数据点的影响分析,主要目的是确定出数据集中可能存在的强影响点.首先,回顾了随机森林算法的研究现状;然后,定义了识别强影响点的诊断统计量;最后,通过对鸢尾花数据和cpu数据的分析,分别从分类和回归两种情形验证了上述诊断方法的有效性.成功地拓展了统计诊断方法的应用范围.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号