首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
一种基于概率加权的朴素贝叶斯分类   总被引:1,自引:0,他引:1  
朴素贝叶斯分类是一种简单而高效的方法,但是它的属性独立性假设,影响了它的分类性能。为了克服该问题,提出了一种基于概率推理的加权朴素贝叶斯分类模型。通过计算属性和类之间的相关概率和不相关概率,对属性赋予不同的权重,从而在保持简单性的基础上有效地提高了朴素贝叶斯算  相似文献   

2.
提出一种基于属性重要度的匿名模型并改进了微聚集算法,提出一种用于解决微聚集算法在处理分类型数据时存在的问题的方法。并针对改进算法,从粗糙集理角度出发,设计了一种度量函数来衡量匿名化数据的质量。仿真实验证明,改进的方法是有效的。 更多还原  相似文献   

3.
为解决入侵检测中朴素贝叶斯算法的高数据内部依赖性和决策树容易产生数据"破碎"的问题,本文结合决策树分段的优点和朴素贝叶斯多证据融合的优点,建立了基于贝叶斯树算法的进程服务预测模型,并将bagging集成学习法用于改进贝叶斯树.实验结果表明,模型能有效检测主机异常,且算法的时间复杂度相对较低,适合在线检测.  相似文献   

4.
针对传统半监督自训练方法在学习朴素贝叶斯分类器过程中容易误标记无标记样本,且整个过程未能利用到训练样本的空间结构信息,导致正确率不高的问题,提出了一种基于加权K最近邻改进朴素贝叶斯自训练算法。该算法利用加权K最近邻算法计算出无标记样本的隶属度,通过隶属度选出与已标记样本空间结构相近的样本,使得朴素贝叶斯分类器在一个较好的空间结构上对未标记样本进行分类,充分地利用样本的空间结构信息,从而降低了自训练过程中的迭代错误。在UCI和Kaggle数据集上的对比实验结果表明,该方法的性能相对于传统半监督自训练算法有所改善。  相似文献   

5.
反垃圾邮件及粗糙朴素贝叶斯邮件分类器   总被引:1,自引:1,他引:0  
垃圾邮件的广泛传播严重的影响的电子邮件的正常使用,对当前主要的反垃圾邮件过滤技术进行了分类和研究,并且提出了基于ROUGHSET优化的朴素贝叶斯分类邮件过滤算法。基于上述理论的反垃圾邮件过滤实验证明了算法的有效性。  相似文献   

6.
基于情感文本分析技术对股票研究报告中的投资建议进行分类.提取股票研究报告中的"组合特征";采用改进的卡方统计方法进行特征提取,并通过支持向量机(SVM)和朴素贝叶斯算法进行分类,验证分类效果;探讨了权重计算、特征维度和样本数量对分类效果的影响.基于东方财富网上采集的14 000篇股票研究报告的实验表明,通过提取"组合特征"、部分特征维度以及对训练样本重采样,可以取得较好的分类效果.  相似文献   

7.
以东江干流(珠江流域支流)河源、岭下和博罗3个测站水位-流量数据为例,运用贝叶斯方法拟合水位流量关系曲线中的幂律模型.以东江干流历年实测数据构建合理的先验分布为基础,结合似然函数,导出后验分布,并用马尔科夫链蒙特卡洛(MCMC)算法估计后验分布中的参数.结果表明:贝叶斯方法能够合理推断水位流量关系曲线中的幂律模型并结合MCMC算法进行参数估计,且能够提供拟合的水位流量关系曲线的95%置信区间;相比最大似然估计法,贝叶斯方法在曲线的外延性表现更好.  相似文献   

8.
C4.5算法作为目前常用的数据挖掘方法,仍存在一些缺陷。针对算法中出现的信息增益率计算复杂的问题,通过数学知识对增益率计算过程进行简化,提高计算效率;针对算法中可能偏袒属性值较多的属性的不足,在非类属性进行最佳属性的选择时引入权重这个概念;针对连续属性离散化过程耗时的缺陷,利用边界定理寻找最大信息增益率的候选分裂点,减少计算时间。将改进后的算法应用到葡萄牙某银行挖掘认购存款的潜在用户上,实验结果表明,C4.5改进算法计算量减少,分类准确率也有提高,决策树的生成时间也大大缩减,构建的决策树贴合实际。  相似文献   

9.
概念学习中连续值型属性的离散化   总被引:1,自引:0,他引:1  
在概念学习中,属性不仅可以为离散值型,还可以为连续值型,因此,连续值型属性的离散化问题是概念学习中的一个重要问题,本文给出了基于假设检验的离散化方法的理论依据,并依此提出了一种离散化算法Discrete,实验结果表明,这种方法一般能得到较合理的区间划分.  相似文献   

10.
在大数据时代,入侵检测作为网络安全的一种重要技术手段被广泛采用.网络入侵检测数据不同的特征属性具有不同的量纲和量纲单位,为了消除特征属性之间的量纲影响,一般在进行数据分析之前采用归一化处理.当前网络入侵检测数据的归一化处理大多只考虑特征属性取值本身的分布情况,没有客观地评估它对类别信息或其他特征属性的影响.针对这个问题,提出了一种基于信息论的网络入侵检测数据归一化方法.对连续特征属性,它以联合信息增益作为区间的分割评估方法,以区间的类别占比作为标准依据进行归一化处理;对离散特征属性,它根据类别条件熵的占比进行了归一化处理.利用NSL-KDD数据集仿真实验,结果表明,该方法不仅能够提高学习算法的收敛性,而且归一化的结果有助于提高分类模型的检测率和降低分类模型的误报率.  相似文献   

11.
现阶段高频心电图(high-frequency electrocardiogram,HFECG)分类算法多为心梗(myocardial infarction,MI)与非心梗的二类分类或心梗类别分类算法,无法在心梗早期的心肌缺血阶段发现病例。基于此,本文提出了一种基于高频心电图的缺血型心脏疾病分类算法。该算法选取并改进了6个高频成分参数作为特征,使用XGBoost模型对样本进行分类。相较于传统算法,该算法增加了对缺血型异常(ischemic,ISC)病例的分类,可以及早发现心梗潜在病例。此外,本文对高频成分参数中幅值下降区域的求解过程与形态学指标进行了改进,提高了算法性能。采用本文算法在PTB-XL数据集上进行了实验,并利用临床数据进行了验证。实验结果表明,本文采用的高频心电图特征对于心肌缺血异常具有较强的表征能力,针对PTB-XL数据集,对四分类类别:正常(NORM)、其他异常(ABNORM)、ISC和MI的识别准确率依次为83.9%,81.7%,88.2%和93.9%。该算法可以有效挖掘处于心梗早期心肌缺血阶段的病例。  相似文献   

12.
为提高出租车GPS大数据的可用性, 提出一种基于贝叶斯网络研究稀疏出租车GPS轨迹路径还原的方法. 与传统仅基于时空变量的研究方法不同, 新算法同时考虑天气条件、驾驶员特性、车辆行驶特性与出租车的载客状态等因素来进行路径还原预测. 以宁波市体育中心周围的路网为例, 将出租车服务信息管理平台的GPS轨迹数据作为测试对象, 验证本文方法的适用性. 结果显示, 基于多因素的贝叶斯网络方法在还原精度方面(达到91.4%)优于Logit选择模型. 此外, 新算法尤其适用于出租车轨迹数据缺失率较高的场景, 比如缺失轨迹点跨度在5 min左右.  相似文献   

13.
针对已有知识树知识热点不突出、知识分类不准确以及结构不断演化等问题,本文面向维基百科的中文数据库"服务计算"领域密集型数据,提出了扩展的中文分词算法,抽取、分类出多种主题知识及其结构化信息,结合服务计算领域文档提出基于LDA改进的DKHM(文档-主题-热点)模型,使用Gibbs抽样算法对数据集采样,并消除原词条歧义分类,以建立演化知识树.实验结果表明:基于DKHM的聚类准确度高于一般的贝叶斯聚类,通过聚类发现的热点与真实热点的匹配度达60%以上,从而验证了演化知识树比维基百科原有知识树结构更合理,热点趋势效果更明显.  相似文献   

14.
递归流分类(RFC)算法是目前具有代表性的一种流分类算法,其时间复杂度是O(1),匹配速度非常快,但是它难以根据字符串类型域进行流分类.本文结合Aho-Corasick多关键字匹配算法的基本思想,通过为字符串类型域构造匹配自动机和CBM数组,扩充了RFC算法,使新算法能够根据字符串域进行流分类.试验结果表明,改进的算法性能良好,并且适用于某些不能直接使用原RFC算法的应用领域.  相似文献   

15.
借助于课题实验环境的医疗云平台,利用比特化敏捷减枝方法改进Apriori算法,得到更简单快速的KVABS算法,对医学干预数据进行分析,挖掘出H型高血压病理成因的主要影响因子。实验结果表明,基于比特化敏捷减枝的KVABS算法性能较经典Apriori算法有明显提升,降低了算法的时间复杂度。  相似文献   

16.
由于在线用户评论具有数据量大、质量良莠不齐等特点,单纯依靠人工校读方法发现其中的演化需求耗时耗力,也无法满足以用户为中心的软件版本快速更新的需要,因此提出一种基于用户评论的潜在演化需求发现方法 DICM.该方法首先对预处理后的用户评论文本进行基于信息增益的特征选择,接着使用下采样来降低训练集与测试集的不平衡度,最后利用朴素贝叶斯分类器分类出潜在演化需求,以辅助需求工程师进行演化需求的抽取.对照实验结果表明,使用DICM方法发现的潜在演化需求可以有效辅助需求分析师进行演化需求的获取,减轻需求分析师工作量并减小个体差异.同时,获得了关于DICM方法的用户可接受性及未来改进方向.  相似文献   

17.
本文旨在构建基于临床电子病历数据的冠心病预测模型.回顾性收集了2015年至2020年在宁波大学医学院附属医院住院期间,接受选择性冠状动脉造影的患者的临床数据,分别应用决策树、朴素贝叶斯和逻辑回归算法构建冠心病预测模型,比较3种模型的预测性能.共收集354例患者数据,其中冠心病患者140例,非冠心病患者214例,根据逻辑...  相似文献   

18.
基于概念的教育资源元素材聚类方法研究   总被引:5,自引:0,他引:5  
针对教育资源元素材种类多、独立性强等特点,研究了概念聚类方法解决领域知识的分类和归并问题,并实现了概念的动态聚类算法和归并算法,分析了该算法的效率和聚类准确性.  相似文献   

19.
使用因果推断相关的机器学习方法辅助检测致病基因时,作为因果推断的核心工具,条件独立性(CI)测试算法在高维生物数据场景中往往存在时间复杂度高以及准确性低等问题。为此,提出一种融合偏相关测试与线性残差独立性测试算法,压缩CI测试条件集的搜索空间,同时提高准确率。设计一种因果推断策略,在减少冗余CI测试的同时结合V结构与因果函数模型的优点,在应用于真实癌症数据的致病基因检测场景中可以区分Markov等价类,找到真正的因果关系。实验结果表明,提出的算法有较好的致病基因检测性能。  相似文献   

20.
基于支持向量机的高炉铁水硅含量多类别分类   总被引:1,自引:0,他引:1       下载免费PDF全文
支持向量机是基于统计学习理论发展而来的一种机器学习算法,本文介绍了非线性软间隔分类机、最小二乘分类机和加权最小二乘分类机的算法.以山东莱钢1号高炉在线采集数据作为应用案例.使用C均值算法对[Si]做聚类分析将其分成5类,改进Mary分类方法实现对铁水硅质量分数[Si]的多类别分类.并对各分类机的性能作出评价.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号