首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
针对朴素贝叶斯网络分类模型在处理高维大数据量时的效率偏低和准确率有待提高的问题,结合主元分析法与K-均值聚类算法构造出了一个改进的朴素贝叶斯网络分类模型;摒弃了非类属性变量相对于类属性变量相对独立的前提条件,算法首先用主元分析法在对数据集的信息量尽量保存的同时进行了降维操作,使得算法可以着重于进行分类问题;算法还提出了一个"相对融合点"的概念,有效地提高了算法的性能;最后对算法的性能进行了分析,并将改进的算法应用到实际的数据集进行实验,用算法产生的分类结果对数据集中产生的一些缺失数据进行修补。  相似文献   

2.
关系朴素贝叶斯分类算法对于目标关系表和背景关系表中不同的记录关联方式采用不同的策略,灵活运用连接和元组ID传播技术,高效地实现了将背景关系表中的信息加入到目标关系表中一起考虑来进行分类,提高了分类正确率。该算法采用关系数据库的数据表示方式,解决了传统的朴素贝叶斯算法不能支持关系数据库的问题。  相似文献   

3.
基于相关系数的加权朴素贝叶斯分类算法   总被引:7,自引:0,他引:7  
朴素贝叶斯分类算法的条件独立性假设在很少情况下能够满足,为了克服该问题,提出了一种基于相关系数的加权朴素贝叶斯分类模型.通过计算条件属性和决策属性之间的相关系数,对不同的条件属性赋予不同的权重,从而在保持简单性的基础上有效地提高了朴素贝叶斯算法的分类性能.首先给出了基于相关系数的属性权值求解方法,然后描述了相应的算法,并对算法原理进行了分析与证明.通过在中医小儿肺炎病例数据集和UCI数据集上的仿真实验,验证了该方法的有效性.  相似文献   

4.
在钻井过程中,由于井底压力计算模型误差大,而井下实测井底压力时数据容易失真、甚至无数据,因而不能准确测定井底压力,对钻井作业带来极大的安全风险.针对此类问题,提出了一种用K-means聚类方法优化朴素贝叶斯模型,结合井底压力监测原理,形成一套实现井底压力智能动态分析K-means聚类优化的朴素贝叶斯模型,利用该模型修正...  相似文献   

5.
一种改进的K-means聚类算法   总被引:1,自引:0,他引:1  
传统的K-means聚类算法对初始聚类中心的依赖程度很大,聚类结果会随聚类中心的选择不同波动很大,为了消除这种中心选择不确定性,提出一种改进的K-means聚类算法,从而有效地改善初始聚类中心点选择的随机性,提高聚类结果的稳定性.仿真实验结果表明,改进后的K-means聚类算法优于传统的算法.  相似文献   

6.
学生综合素质评估的层次贝叶斯网络聚类方法   总被引:1,自引:1,他引:0  
针对学生综合素质评估特点和现有评估方法存在的问题,建立了学生综合素质评估的层次朴素贝叶斯网络聚类方法,这种方法不需要许多例子,甚至在没有例子的情况下也能够进行规则提炼和预测.实验结果显示,层次朴素贝叶斯网络聚类方法具有良好的预测准确性,这将使基于层次朴素贝叶斯网络聚类的学生综合素质评估更加可靠.  相似文献   

7.
针对传统K-means算法的聚类结果依赖初始聚类中心的缺陷,提出了一种基于密度的改进K-means聚类算法,该算法选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-means聚类。针对PAM算法时间复杂度高,且不利于大数据集处理的缺陷,提出了一种基于密度的改进K-medoids聚类算法,在选取初始中心点时根据数据集样本的分布特征选取,使得初始中心点位于不同类簇。UCI机器学习数据库数据集和随机生成的带有噪音点的人工模拟数据集的实验测试证明,基于密度的改进K-means算法和基于密度的改进Kmedoids算法都具有很好的聚类效果,运行时间短,收敛速度快,有抗噪性能。  相似文献   

8.
聚类算法在中文信息处理领域有着广泛的应用.文章采用农作物种子信息文本,旨在通过将语料中的句子聚类,从而抽取种植农作物的有用信息.文章采用特征词的方法,利用特征词将句子聚类,通过实验达到了比较满意的效果.  相似文献   

9.
基于条件互信息下聚类的朴素贝叶斯分类算法   总被引:1,自引:0,他引:1  
 采用条件互信息来度量任意2个条件属性之间的关联程度,采用互信息度量各条件属性与类属性间的关联程度,以此作为将各条件属性进行聚类的准则,提出一种新的将条件属性进行聚类的分组技术.同时,结合朴素贝叶斯分类算法,构造了改进的朴素贝叶斯分类模型.通过仿真实验表明该文提出的算法具有较好的分类性能.  相似文献   

10.
文本聚类算法的比较   总被引:3,自引:0,他引:3  
聚类是一种重要的数据挖掘形式。介绍了常用的文本聚类算法,从各种聚类算法的适用范围、初始参数的影响、终止条件以及对噪声的敏感性等方面对其进行了分析比较。  相似文献   

11.
朴素贝叶斯分类器是一种简单而高效的分类器,但它的条件独立性假设影响了它分类的正确率.加权朴素贝叶斯是对它的一种扩展.通过分析属性相关性的度量和属性约简,选择一组最近似独立的属性约简子集,并结合加权朴素贝叶斯和选择性贝叶斯分类器的优点,提出一种选择性的加权贝叶斯分类器SWNBC.实验结果表明,与朴素贝叶斯分类器相比,WSANBC分类器具有较高的分类正确率.  相似文献   

12.
为克服k-means算法难以探测出一些局部分布稀疏不均、聚类区域的形状与大小不规整数据点集的聚类分布结构这个缺点,在半监督学习思想的指导下,针对混合属性空间区域中具有同一分布性质的带有类别标记的小样本数据集和无类别标记的大样本数据集,提出了一种基于半监督学习的k平均聚类框架。仿真实验表明:该框架经常能取得比k-means更好的聚类精度,从而说明这个半监督学习框架具有一定的有效性。  相似文献   

13.
针对当前数据挖掘中对数值型数据聚类方法的不足,提出了基于特征点选择的聚类算法(clustering algorithm based on Feature Point Selection,CFPS)。CFPS算法可以克服需要输入聚类数量的缺陷, 算法本身可以找到簇的最佳数量,使聚类的精度和效率得到大大提高。实验结果表明该方法对数值型数据聚类方法具有借鉴意义和深入研究的价值。  相似文献   

14.
基于改进聚类算法的RBF网络及其应用   总被引:1,自引:0,他引:1  
RBF网络可以逼近任意连续非线性函数,且训练速度快,性能好,被广泛应用于过程建模和预测。RBF网络的一个重要因素是隐层节点的选择,隐层节点过多或过少都会影响最终网络的性能。提出一种改进的k-means聚类算法,可以自动确定最优的聚类区数,并且可使最终的聚类中心合理地分布在数据空间中。在应用RBF网络进行建模和预测时,采用该方法确定隐层节点的中心,跟用通常的聚类方法相比,可以大大减小网络规模。仿真和实际应用结果都证明该方法的有效性。  相似文献   

15.
针对碎纸机破碎文档后的规则碎纸片拼接问题,通过对碎纸片上边缘的灰度向量将文档分为上边缘为空白和非空白区域两大类,再分别以上边缘非空白区高度和空白区高度作为聚类参数,将纸片分为若干簇,在每一个簇中利用相邻两张碎纸片左右边缘向量相似度来进行拼接,得到若干横条的纸片,然后以行距和横条间上下边缘相似度为参数来将若干横条拼接为完整文档。  相似文献   

16.
At present, studies on training algorithms for support vector machines (SVM) are important issues in the field of machine learning. It is a challenging task to improve the efficiency of the algorithm without reducing the generalization performance of SVM. To face this challenge, a new SVM training algorithm based on the set segmentation and k-means clustering is presented in this paper. The new idea is to divide all the original training data into many subsets, followed by clustering each subset using k-means clustering and finally train SVM using the new data set obtained from clustering centroids. Considering that the decomposition algorithm such as SVMlight is one of the major methods for solving support vector machines, the SVMlight is used in our experiments. Simulations on different types of problems show that the proposed method can solve efficiently not only large linear classification problems but also large nonlinear ones.  相似文献   

17.
全方位的对各类聚类算法进行总结和归纳,并且对一些在特殊领域中应用聚类算法进行深度解析,然后从以下三个部分,算法思想,关键技术以及算法特点等方面进行基本概括,对一些代表性的聚类算法进行比较分析以及聚类算法新领域研究的展望,这对将来聚类发展具有重大意义.  相似文献   

18.
明文特征是基于应用层静态特征的一种识别方法,需要提取出应用层数据的特征信息;而朴素贝叶斯分类是基于大量统计信息的一种识别方法,主要用来识别加密的Peer-to-Peer(P2P)流量。着重介绍了采用明文特征和朴素贝叶斯分类相结合的方法,对加密的以及未加密的P2P流量进行识别。测试结果表明,这种方法可以较准确地识别出P2P流量。  相似文献   

19.
基于动态聚类算法的IRC僵尸网络检测   总被引:1,自引:1,他引:0  
为了快速定位局域网中存在的僵尸网络,提高网络管理效率,通过对IRC僵尸网络运行机制的深入研究,结合经典数学定义在三层交换机上抓取流量并做预处理,按照流量数据的相同元素(源地址,目的地址)划分集合并得到三个向量(IRC命令、包速率和包大小)集合,基于改进的k- means动态聚类算法,合理定义时间滑动窗口,对数据集的三个...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号