首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
针对传统C4.5决策树分类算法需要进行多次扫描,导致运行效率低的缺陷,提出一种新的改进C4.5决策树分类算法.通过优化信息增益推导算法中相关的对数运算,以减少决策树分类算法的运行时间;将传统算法中连续属性的简单分裂属性改进为最优划分点分裂处理,以提高算法效率.实验结果表明,改进的C4.5决策树分类算法相比传统的C4.5决策树分类算法极大提高了执行效率,减小了需求空间.  相似文献   

2.
数据挖掘技术从产生以来得到了广泛的研究和应用,在数据的分类技术方面C4.5算法的研究已经比较成熟,但在学生成绩挖掘方面的应用比较少,本文首先论述了主要分类技术,详细介绍了C4.5决策树分类算法,并以实际学生成绩数据为依据,进行学生成绩的数据挖掘,通过对挖掘结果的分析表明,C4.5决策树算法高效、准确,是对学生成绩数据挖掘的首选工具.  相似文献   

3.
随着数据量的增长,根据数据分布寻找规律,要借助于相应的数据挖掘工具,这里主要采用决策树的方法.决策树算法是通过构造精度高、小规模的决策树采掘训练集中的分类知识.针对决策树存在的一些问题,提出了改进方法.  相似文献   

4.
数据挖掘是指从数据库中抽取隐含的、具有潜在使用价值信息的过程,是一种新型的数据分析技术.研究数据挖掘中的决策树算法以及决策树算法在具体的客户关系管理系统中的研究与分析,对数据挖掘中的决策树技术做了详细的描述.  相似文献   

5.
基于粗糙集和决策树的数据挖掘方法   总被引:10,自引:1,他引:9  
从粗糙集和决策树两种方法具有的优势互补性出发,提出了一种基于粗糙集和决策树相结合的数据挖掘新方法·以胶合板缺陷检测数据分析为应用对象,利用粗糙集理论对胶合板数据库中的特征信息进行缺陷识别·利用谱系聚类重心距离法对数据进行离散化处理,采用粗糙集进行属性约简,得到低维样本数据,最后用决策树方法产生决策规则·实验证明,这种数据挖掘方法保留了原始数据的内部特点,加快了获取知识的进程,提高了模型的分类准确率,增强了规则的可解释性,取得了满意的研究结果·  相似文献   

6.
本文简明扼要的介绍了数据挖掘中决策树SPRINT算法,并对其进行了一定程度上系统的分析和改进.  相似文献   

7.
决策树方法是数据挖掘中一种重要的分类方法,决策树是一个类似流程图的树型结构,其中树的每个内部结点代表对一个属性的测试,其分支代表测试的结果,而树的每个叶结点代表一个类别。通过决策树模型对一条记录进行分类,就是通过按照模型中属性测试结果从根到叶找到一条路径,最后叶节点的属性值就是该记录的分类结果。  相似文献   

8.
9.
决策树算法是数据挖掘中非常活跃的研究领域.通过对数据挖掘中决策树的基本思想进行阐述,讨论了决策树经典算法(ID3算法)的计算复杂度问题,并针对这一问题提出了利用统计理论知识和条件概率的思想来改进构造决策树的算法.实验表明,这种构造决策树算法的计算复杂度明显优于传统的算法,其效率也有很大的提高.  相似文献   

10.
王植  张珏 《河南科学》2023,(1):7-12
为了改进不平衡数据的分类性能,提出一种可自动确定迭代参数trail值的集成C5.0决策树算法.首先,算法引入boosting集成框架到C5.0决策树算法中,从而生成新的集成分类器;其次,算法使用网格搜索法在一定范围内自动确定trail参数的值.实验结果表明,该算法在不平衡数据上的分类性能指标G-mean和MCC上具有优势.  相似文献   

11.
12.
随着高校的扩招和信息化技术的应用,学校教务管理系统已经拥有大量的考试数据,如何利用这些数据,采用一定的技术手段,获取其中的有用信息,这是众多学校教务部门希望解决的问题。本文提出了使用数据挖掘技术分析学生成绩数据,发现数据中的隐含规则与知识,给教师提供教学决策的解决方案。并以成绩分析决策树为例,对数据预处理、归纳决策树、剪枝和规则以及规则应用整个过程进行了详细论述。为高校相关部门和工作人员分析学生成绩,提供了一种可行的思路和方法。  相似文献   

13.
决策树C4.5算法的改进及应用   总被引:12,自引:3,他引:9  
根据C4.5算法中信息增益率计算原理的特点,利用数学上等价无穷小的性质提出一种新的改进的C4.5算法,减少了信息增益率的计算量,进而提高C4.5算法中信息增益率的计算效率.改进的C4.5算法与原C4.5算法相比,在构造决策树时具有相同的准确率和更高的计算速度,将改进后的C4.5算法应用到成绩分析中.  相似文献   

14.
关联规则应用最频繁的是在零售部门,尤其是超市。以某超市一天中的商品销售记录为例来说明关联规则的应用,从中发现客户的购买模式和消费习惯。决策树分类方法的应用中,对于汽车销售公司的客户定位进行了分析,区分了男性和女性的偏好。销售公司可以据此对客户进行具体定位,促进销售。  相似文献   

15.
数据挖掘又称为KDD,广义上讲,数据挖掘是一个从大量的数据中提取人们感兴趣的模式的过程,是数据库中知识发现过程的一个基本步骤。本文主要通过论述数据挖掘的原理与相关算法进行研究与分析,已达到数据挖掘在生活中更好的实际应用的目的。  相似文献   

16.
Extensible Markup Language即"可扩展的标置语言"(简记为XML)的出现,为基于Web的数据挖掘带来了便利,开发人员能够用XML的格式标记交换数据。充分利用XML的优点,提供一种利用决策树ID3修正算法和聚类的方法,对XML文档信息进行挖掘,并结合实例说明这种方法。  相似文献   

17.
ID3算法是决策树学习归纳和数据挖掘中的核心方法。针对ID3算法存在的多值偏向问题,该文提出了一种新的方法对ID3算法加以改进。首先建立属性的关联矩阵,然后通过计算属性的类方差选择分裂属性,结合实例说明了改进算法的基本思想。实验结果表明,改进后的算法能够构造更合理的决策树并能在一定程度上克服多值偏向。  相似文献   

18.
传统的决策树方法在实际应用中存在很多不足,如生成树规模过大,抗噪性较差等,因此,提出了将变精度粗糙集和混合变量集算法应用于决策树分类中,通过变精度和混合属性集分类减小树的规模和过度拟合问题,降低了噪声数据对属性选择的影响,并通过实验证明该算法与传统的算法相比具有较大的优越性。  相似文献   

19.
90年代初,伴随着以客户为中心的管理思想的广泛发展,美国著名的战略咨询公司Gartner Group最先正式提出了一个完全以客户为中心的管理理念及信息系统——CRM.选取决策树中的ID3算法对客户进行分类,使用JAVA语言自主编程实现分类功能,并运行程序对一组数据进行处理得出分类结果。  相似文献   

20.
AdaBoost算法是一种将多个基学习器通过合理策略结合生成强学习器的集成算法,其性能取决于基学习器的准确率和多样性。但弱学习器分类精度不高往往也导致了最终强分类器性能较差,因此进一步为了提高算法的分类精确率,本文提出一种MDTAda模型,首先利用基尼指数迭代构造一棵不完全决策树,然后在决策树的非纯伪叶结点上添加简单分类器,生成MDT(模型决策树),将MDT作为AdaBoost算法的基分类器,加权平均生成强分类器。在标准数据集上的实验表明,相比传统的AdaBoost算法,本文提出的算法拥有更好的泛化性能和更优的间隔分布,且在与AdaBoost算法达到相同精度时所需迭代次数更少。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号