首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
本文旨在构建基于临床电子病历数据的冠心病预测模型.回顾性收集了2015年至2020年在宁波大学医学院附属医院住院期间,接受选择性冠状动脉造影的患者的临床数据,分别应用决策树、朴素贝叶斯和逻辑回归算法构建冠心病预测模型,比较3种模型的预测性能.共收集354例患者数据,其中冠心病患者140例,非冠心病患者214例,根据逻辑...  相似文献   

2.
软件项目外包已成为主要的软件开发方式,但风险却很高.本文提出了外包软件项目风险的决策树智能分析实证模型,并用此模型对项目风险进行评估和控制.建立了基于客户方和承包方双视角的风险识别概念模型,收集了外包软件项目真实样本用于决策树风险智能分析模型的训练和验证.实验结果表明,本文所采用的方法在准确率方面优于神经网络、朴素贝叶斯算法.决策树模型所发现的管理规则与软件工程理论相吻合,能很好地指导项目风险评估分析.  相似文献   

3.
朴素贝叶斯分类算法是一种简单实用的分类方法,人们对它的属性间条件独立性假设做了许多研究,致力于消除冗余属性、减少属性间的关联性,以获得一些新属性来使用朴素贝叶斯算法,但新属性间的独立性却不易度量,因而改进之处的理论支撑有所不足,改进后的朴素贝叶斯算法的效果更多的是由数据实验进行佐证。本文定义了Gauss分布型数据,提出了经Gram-Schmidt正交化方法改进的朴素贝叶斯算法,使其可以方便地使用于Gauss分布型数据的分类。该改进方法不同以往显式的构造新属性集或属性变换矩阵,而是直接正交化属性的样本数据,并证明了正交后的属性数据所对应的抽象新属性的独立性。这说明对于Gauss分布型数据的分类,原朴素贝叶斯算法中的条件独立性的假设不会给算法的使用造成障碍,经Gram-Schmidt正交化后即可满足这个约束条件。  相似文献   

4.
针对传统半监督自训练方法在学习朴素贝叶斯分类器过程中容易误标记无标记样本,且整个过程未能利用到训练样本的空间结构信息,导致正确率不高的问题,提出了一种基于加权K最近邻改进朴素贝叶斯自训练算法。该算法利用加权K最近邻算法计算出无标记样本的隶属度,通过隶属度选出与已标记样本空间结构相近的样本,使得朴素贝叶斯分类器在一个较好的空间结构上对未标记样本进行分类,充分地利用样本的空间结构信息,从而降低了自训练过程中的迭代错误。在UCI和Kaggle数据集上的对比实验结果表明,该方法的性能相对于传统半监督自训练算法有所改善。  相似文献   

5.
针对已有知识树知识热点不突出、知识分类不准确以及结构不断演化等问题,本文面向维基百科的中文数据库"服务计算"领域密集型数据,提出了扩展的中文分词算法,抽取、分类出多种主题知识及其结构化信息,结合服务计算领域文档提出基于LDA改进的DKHM(文档-主题-热点)模型,使用Gibbs抽样算法对数据集采样,并消除原词条歧义分类,以建立演化知识树.实验结果表明:基于DKHM的聚类准确度高于一般的贝叶斯聚类,通过聚类发现的热点与真实热点的匹配度达60%以上,从而验证了演化知识树比维基百科原有知识树结构更合理,热点趋势效果更明显.  相似文献   

6.
基于情感文本分析技术对股票研究报告中的投资建议进行分类.提取股票研究报告中的"组合特征";采用改进的卡方统计方法进行特征提取,并通过支持向量机(SVM)和朴素贝叶斯算法进行分类,验证分类效果;探讨了权重计算、特征维度和样本数量对分类效果的影响.基于东方财富网上采集的14 000篇股票研究报告的实验表明,通过提取"组合特征"、部分特征维度以及对训练样本重采样,可以取得较好的分类效果.  相似文献   

7.
一种基于概率加权的朴素贝叶斯分类   总被引:1,自引:0,他引:1  
朴素贝叶斯分类是一种简单而高效的方法,但是它的属性独立性假设,影响了它的分类性能。为了克服该问题,提出了一种基于概率推理的加权朴素贝叶斯分类模型。通过计算属性和类之间的相关概率和不相关概率,对属性赋予不同的权重,从而在保持简单性的基础上有效地提高了朴素贝叶斯算  相似文献   

8.
反垃圾邮件及粗糙朴素贝叶斯邮件分类器   总被引:1,自引:1,他引:0  
垃圾邮件的广泛传播严重的影响的电子邮件的正常使用,对当前主要的反垃圾邮件过滤技术进行了分类和研究,并且提出了基于ROUGHSET优化的朴素贝叶斯分类邮件过滤算法。基于上述理论的反垃圾邮件过滤实验证明了算法的有效性。  相似文献   

9.
给出了基于MAP和MDL混合机制的贝叶斯网络结构学习算法,新算法吸取了两种方法各自的特点,具有计算简单、收敛速度快且能综合利用先验知识及专家知识的优点。并结合A校研究生的海量数据进行实验,结果表明:新的预测模型准确率可达84%,且推理高效合理。  相似文献   

10.
以东江干流(珠江流域支流)河源、岭下和博罗3个测站水位-流量数据为例,运用贝叶斯方法拟合水位流量关系曲线中的幂律模型.以东江干流历年实测数据构建合理的先验分布为基础,结合似然函数,导出后验分布,并用马尔科夫链蒙特卡洛(MCMC)算法估计后验分布中的参数.结果表明:贝叶斯方法能够合理推断水位流量关系曲线中的幂律模型并结合MCMC算法进行参数估计,且能够提供拟合的水位流量关系曲线的95%置信区间;相比最大似然估计法,贝叶斯方法在曲线的外延性表现更好.  相似文献   

11.
本文提出一种基于双向IndRNN(Bidirectional Independently Recurrent Neural Network, Bi-IndRNN)的恶意URL分析与检测算法.通过对恶意URL分析与检测特点的研究,提取主机信息特征和URL信息特征.把主机信息特征与URL信息特征相融合,并利用Bi-IndRNN算法对恶意URL进行分析与检测.与k最邻近分类算法(k-NearestNeighbor, KNN)、高斯贝叶斯算法(GaussionNB)、LSTM(Long Short-Term Memory)算法、IndRNN(Independently Recurrent Neural Network)算法对比结果表明,该模型对恶意URL的分类检测准确率达到95.92%,明显高于其它算法模型.  相似文献   

12.
为提高出租车GPS大数据的可用性, 提出一种基于贝叶斯网络研究稀疏出租车GPS轨迹路径还原的方法. 与传统仅基于时空变量的研究方法不同, 新算法同时考虑天气条件、驾驶员特性、车辆行驶特性与出租车的载客状态等因素来进行路径还原预测. 以宁波市体育中心周围的路网为例, 将出租车服务信息管理平台的GPS轨迹数据作为测试对象, 验证本文方法的适用性. 结果显示, 基于多因素的贝叶斯网络方法在还原精度方面(达到91.4%)优于Logit选择模型. 此外, 新算法尤其适用于出租车轨迹数据缺失率较高的场景, 比如缺失轨迹点跨度在5 min左右.  相似文献   

13.
基于决策树算法的滑坡危险性区划评价   总被引:7,自引:0,他引:7       下载免费PDF全文
以浙江庆元县境内滑坡发生集中区为试验区,获取与滑坡危险性有关的因素集,包括数字高程、坡度、对应分析因子、地质图等,采用决策树算法对因素集数据进行数据挖掘,开展滑坡危险性区划,取得了与实际较为一致的结果.因此,利用决策树归纳技术可以快速准确地实现滑坡灾害区域评价与预测,是一种较好的滑坡灾害危险性评价方法.  相似文献   

14.
数据挖掘问题是提高k-匿名隐私保护模型下数据可用性问题之一.通过分析发现,k-匿名表中准标识符属性值与利用精确表生成的判定树的部分非叶结点的属性值均是通过泛化产生的,根据这一对应关系,本文提出了一种基于k-匿名表的判定树生成算法.该算法直接以k-匿名表作为输入,避免了经典ID3算法运行前的数据准备工作.实验表明,该算法节省了建立概化层次树的时间,并且行之有效.  相似文献   

15.
提出将基因本体论(Gene Ontology)中的背景知识同基因表达值相结合,利用GeneRank算法思想来计算转录因子的重要性排名,再通过K2算法构建贝叶斯网络以刻画这些转录因子间关系的方法.将该方法用于细胞周期的一个基因表达数据集中,实验结果表明它不仅能发现许多转录因子间确知的关系,还可发现一些未知的关系.  相似文献   

16.
鉴于聚类分析是机器学习和数据挖掘领域的一项重要技术, 并且与监督学习不同的是聚类分析中没有类别或标签的指导信息, 所以如何选择合适的聚类个数(即模型选择)一直是聚类分析中的难点. 由此提出了一种基于Dirichlet过程混合模型的聚类算法, 并用collapsed Gibbs采样算法对混合模型的参数进行估计. 新算法基于非参数贝叶斯模型的框架, 能够在不断的采样过程中优化模型参数并形成合适的聚类个数. 在人工合成数据集和真实数据集上的聚类实验结果表明: 基于Dirichlet过程混合模型的聚类算法不但能够自动确定聚类个数, 而且具有较强灵活性和鲁棒性.  相似文献   

17.
多维数据检索查询的新机制   总被引:4,自引:0,他引:4  
结合数据立体方体和R树两种索引方法快速灵尖地进行数据查询,设计了最近邻接快速查询算法FNN,解决了一般R树查询中无法快速查询高维度数据的问题,使查询更高效,应用更广泛。  相似文献   

18.
为了从大规模数据集中更高效地发现有价值的规则,本文提出一种迭代的频繁内嵌无序树模式挖掘算法:TETPM.同时设计了两个工作负载划分策略:TETPM-P和TETPM-E. TETPM-P由模式划分工作负载,而TETPM-E则通过模式实例来划分工作负载.实验评估表明,两种算法均可以有效地从大型数据集中挖掘频繁内嵌模式,TETPM-P适合于模式实例数更均衡的数据集,而TETPM-E则更适合规模更大的数据集.  相似文献   

19.
本文提出了一种使用数据选择器进行逻辑设计的算法,本算法从数据选择器树的首级开始,挑选恰当的数据选择变量,使树型结构得以简化,减少组件总数。  相似文献   

20.
Random Forest作为一种常见的机器学习算法,不仅具备较高的分类回归性能,而且快速高效.传统的Random Forest算法并未在决策树的生成和选择上做深入研究,在本文中笔者提出一种降序去冗的寻优方式对机器学习中监督学习算法Random Forest进行改进,在保证准确率的同时减少随机森林的冗余度,并应用于Android系统的恶意软件检测.经过五折交叉验证法验证,改进的Random Forest算法能够在较低的冗余度下保证较高的准确率,同时改进的算法准确率在与同条件下的原算法的准确率以及OOB模型下的准确率相差在1%以内,在与单模型分类算法KNN和集成式学习算法Adaboost M1的对比试验中改进的Random Forest算法要优于以上两者.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号