首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
决策树分类方法是实现数据挖掘中分类任务的一种有效方法,但在大规模测试数据集上运行时其实现性能受到严重影响.本文设计和实现一种基于MapReduce架构的并行决策树分类算法.实验结果表明:基于MapReduce的决策树分类算法比同类算法在其他并行编程模型下的实现在计算节点较多的情况下能得到更优的性能.  相似文献   

2.
基于网络包分类算法在时间和空间复杂度上的限制,启发式策略一般具有较快的速度,同时在应用上具有较好的前景,提出了一种基于统计决策树的启发式包分类算法.该算法把规则头部中的每一位看作一个特征属性,因为不同位有不同的区分效果,根据对规则的统计把最具有区分意义的几位提取出来作为决策树的决策属性,使规则在子集中分布比较均匀,在子集中也做同样的处理,递归形成树形的数据结构;匹配时在树的每一层根据区分位判断其所属的子集,直到找到相匹配的规则.算法测试表明能实现高效的分类.  相似文献   

3.
为了提高基于大规模数据的决策树训练效率,提出了一种基于Spark平台的并行决策树算法(SPDT).首先,采用数据按列分区的方法,把单个属性列完整地保留在一个分区内,使缓存该分区数据的数据节点能独立完成信息熵的计算,以减少数据节点之间的信息交流造成的网络资源的占用.然后,数据在按列分区后以稠密向量的形式缓存于内存中,SPDT对数据进行压缩,以减少对内存的占用.最后,SPDT采用基于边界点类别判定的连续属性离散化方法来处理连续属性,减少决策树训练过程中信息熵计算的频次,并提出使用信息增益比划分训练数据集的方法,以减少信息增益计算对多属性值属性的依赖.实验结果表明,在树的训练效率方面,SPDT在保持分类精度的情况下,比Apache Spark-MLlib决策树算法(MLDT)以及基于Spark平台的垂直划分决策树算法(Yggdrasil)有明显的提升.  相似文献   

4.
金伟健 《科技资讯》2009,(14):239-239
分析了应用决策树算法对CRM系统中客户进行分类的一般过程,对分类的过程中的几个方面进行了优化,给出了一个改进了的基于决策树分类算法的客户分类模型。  相似文献   

5.
提出了一种基于模糊化决策树的自适应分类算法.介绍基于决策树的分类算法,指出训练样本分布不均匀或树剪枝操作都可能引起分类规则的不完全,导致分类出现"盲区".引入决策树的模糊化方法及分支(规则)激活度的概念,给出一种新的自适应分类算法.并用实例分析表明,该算法不仅解决了分类规则不完全的问题,而且也提高了决策树分类的精度及分类结果的可解释性.  相似文献   

6.
决策树分类算法及其应用   总被引:2,自引:0,他引:2  
分类算法是数据挖掘中的最重要的技术之一.本文对决策树数据挖掘方法进行分析和比较;并应用分类方法挖掘枣树嫁接成活率与各种外在因素之间的关系,证明了决策树算法在果树研究领域有着广阔的应用前景.  相似文献   

7.
基于Rough集的决策树算法   总被引:1,自引:0,他引:1  
针对基于Rough集的经典分类算法值约简算法等不适合大数据集的问题,提出了基于Rough集的决策树算法。采用一个新的选择属性的测度——属性分类粗糙度作为选择属性的启发式,该测度较Rough中刻画属性相关性的测度正区域等更为全面地刻画了属性分类综合贡献能力,并且比信息增益和信息增益率的计算更为简单。采取了一种新的剪枝方法——预剪枝,即在选择属性计算前基于变精度正区域修正属性对数据的初始划分模式,以更有效地消除噪音数据对选择属性和生成叶节点的影响.采取了一种与决策树算法高度融合的简单有效的检测和处理不相容数据的方法,从而使算法对相容和不相容数据都能进行有效处理。对UCI机器学习数据库中几个数据集的挖掘结果表明,该算法生成的决策树较ID3算法小,与用信息增益率作为启发式的决策树算法生成的决策树规模相当。算法生成所有叶节点均满足给定最小置信度和支持度的决策树或分类规则,并易于利用数据库技术实现,适合大数据集。  相似文献   

8.
利用决策树发掘分类规则的算法研究   总被引:15,自引:4,他引:15  
主要介绍决策树方法,回顾利用决策树发掘分类规则的各种方法,并对算法进行评价,最后提出了一个利用决策树分类技术进行月降雨预报的算法。  相似文献   

9.
基于粗糙集的RDT决策树生成算法的研究及应用   总被引:1,自引:0,他引:1  
介绍了一种基于粗糙集理论的决策树生成算法--RDT(Rought Set Decision Tree).该方法运用了粗糙集理论中条件属性相对于决策属性的核,引入启发式条件计算并选择条件属性作为决策树的根结点或子结点.通过一个例子,与运用信息熵概念建立决策树的算法进行比较,结果表明采用RDT方法得到的决策树优于采用信息熵方法得到的决策树.还讨论了RDT与ID3算法对决策树精度和规模的影响,分析数据分类和知识发现的过程及特点.  相似文献   

10.
利用决策树算法对银行的信用卡客户进行分类,构建了客户分类模型,给出了分类步骤中信用卡的客户类型特征,为银行的信用卡推广业务提供相应策略.  相似文献   

11.
文章提出一种基于属性重要度的随机决策树构造算法ASRDT,该算法利用粗糙集理论计算每个属性的属性重要度,提升重要属性的影响因子,使得建树过程中随机选择属性时,不同属性之间的区分度得以体现,从而显著提高了算法的抗干扰能力,使ASRST在保持原有RDT算法优点的基础上,更具有良好的分类准确率及稳定性。  相似文献   

12.
利用"基于决策类划分的新型多变量决策树算法"中的五大步骤,以"气象信息系统表"为实例构造多变量决策树,取得的结果与著名的单变量决策树(ID3)方法和粗糙集多变量决策树方法所获得的结果相同,证明本算法有效。其决策树构造过程简单,易于理解。通过时间复杂度的比较,证明本算法优于粗糙集算法速度更优和ID3算法。  相似文献   

13.
根据数据属性间存在的线性相关和非线性相关影响决策树性能的特点,提出了一种用拟合回归建立决策树的算法,并利用这种相关性来提高分类能力.该算法选择了一个较优的属性子集,对此子集中的属性进行加权组合,用于构造决策树的节点,采用二次多项式来拟合两个属性间可能存在的相关性,从而构造出分类能力更强的决策树.研究中用UCI标准数据集对各种算法进行测试及比较,实验结果及分析表明此决策树算法具有良好性能.  相似文献   

14.
通过对SPRINT、RAINFOREST等传统决策树算法改进,使其能够适应不断生长的训练集,生成一棵与旧树相关的树;改进后的算法,新样本一来即可处理,随时产生一个相关的决策树,并且此树还不断优化,具有实时性.  相似文献   

15.
AdaBoost算法是一种将多个基学习器通过合理策略结合生成强学习器的集成算法,其性能取决于基学习器的准确率和多样性。但弱学习器分类精度不高往往也导致了最终强分类器性能较差,因此进一步为了提高算法的分类精确率,本文提出一种MDTAda模型,首先利用基尼指数迭代构造一棵不完全决策树,然后在决策树的非纯伪叶结点上添加简单分类器,生成MDT(模型决策树),将MDT作为AdaBoost算法的基分类器,加权平均生成强分类器。在标准数据集上的实验表明,相比传统的AdaBoost算法,本文提出的算法拥有更好的泛化性能和更优的间隔分布,且在与AdaBoost算法达到相同精度时所需迭代次数更少。  相似文献   

16.
基于粗集的混合变量决策树构造算法研究   总被引:1,自引:1,他引:1  
文章提出混合变量决策树结构,并在此基础上提出基于粗集理论的混合变量决策树构造算法RSH2,算法在每个结点选择尽可能少的属性明确划分尽可能多的实例,减小了决策树规模,且易于理解。将RSH2算法与ID3算法及基于粗集的单变量决策树算法HACRs进行实验比较,结果表明该算法有良好性能。  相似文献   

17.
平寒 《山东科学》2014,27(4):62-67
本文对经典的基于信息增益的决策树算法进行改进,提出一种基于决策树与属性相关性相结合的入侵检测算法。该算法同时结合综合策略的剪枝算法以避免过度拟合对检测结果的影响。实验结果证明,本算法不仅在面对已知攻击时能够做出良好的判断,而且在面对未知攻击时仍然具有一定的检测能力,具有良好的性能和可用性。  相似文献   

18.
决策树算法在医学图像数据挖掘中的应用   总被引:8,自引:1,他引:8  
目的研究决策树算法在医学图像数据挖掘中的应用。方法利用决策树算法对乳腺癌图像数据进行分类,提出了一个基于决策树算法的医学图像分类器。结果实现了ID3和C4.5算法对图像数据的分类,获得了分类的实验结果。结论该模型系统达到了较高的分类准确率,证明数据挖掘在辅助医疗诊断中有着广泛的应用前景。  相似文献   

19.
CRUISE 2D决策树分类算法作为一种数据挖掘和知识发现的监督分类方法,综合了FACT,CART,QUEST决策树分类的思想.通过单因子和双因子交互检验和引导校正,快速有效地降低分割变量选择时产生的偏差,提高树的可读性,建立简单、高效、准确的决策树模型.基于CRUISE 2D决策树方法,以藏南地区为研究区,综合利用TM影像6个波段、NDVI,NDWI,SBI,GVI等波段信息,基于相同的训练样本和检验样本,利用判别规则建立决策树对影像进行分类;并将其与传统的监督分类方法 QUEST,SVM相比较,CRUISE 2D决策树分类方法总精度94.09%,比QUEST,SVM分类分别高10.86%,10.24%;Kappa系数0.931 0,比QUEST,SVM分类分别高出0.126 8,0.119 6.结果表明:CRUISE 2D能有效的改善传统监督分类中的错分漏分现象,在遥感分类上具有很高的稳健性和鲁棒性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号