共查询到18条相似文献,搜索用时 64 毫秒
1.
2.
目前在文本分类领域较常用到的特征选择算法中,仅仅考虑了特征与类别之间的关联性,而对特征与特征之间的关联性没有予以足够的重视.在特征相关性分析的基础上,提出了一种新的算法,改进了特征选择算法中所出现的上述问题.实验验证了算法的可行性和有效性. 相似文献
3.
互联网时代存在大量的文本数据,为了更加有效的利用文本信息,文本分类已成为当务之急.本文介绍了朴素贝叶斯算法的原理以及解决文本分类问题的流程,分析了朴素贝叶斯用于文本分类问题的优缺点,并且提出了改进方案. 相似文献
4.
目前大多数文本自动分类系统都采用向量空间模型(VSM)来表示文档.针对常规的VSM文档表示方法不能反映概念的问题,文章对VSM进行了改进.在VSM的基础上,选取在同一个窗口单元中出现的高频词,用Apriori算法从这些高频词中挖掘出最大频繁词共现集,以此对VSM进行扩展后用来表示文档.实验表明,与用VSM表示文档相比,该方法使文本自动分类系统的性能有了显著的提高. 相似文献
5.
文本分类,是一种对文档进行自动标记类别的技术。它是文本挖掘中的一个核心任务,也是近年来数据挖掘中的一个研究热点。在文章本分类中,所要处理的文档集中包含了很多特征,而分类算法中对于这些特征的处理和识别又需要进行大量的计算,目前尽管分类算法的准确率可以达到很高的水平,但分类算法的速度却因为受到硬件条件的限制而没有得到有效的提高,而网格计算可以弥补这一点缺陷。文章对传统的向量空间分类算法进行改进,并在Alchemi网格计算平台下测试,发现在网格环境下,文本分类的速度得到很大的提高。 相似文献
7.
网络新闻自动分类已经成为当下的热点问题,SVM分类算法是文本分类中应用较为成熟的一种方法.文章针对SVM文本分类中特征选择和核函数选择的两个重要问题,在新闻文本实验环境下进行了探讨,结果表明使用互信息特征选择法且特征数在4000左右,使用SIGMOID核函数的情况下准确率与召回率均可达到97%的分类效果. 相似文献
8.
9.
互信息是一种常用的特征选择评价函数,但研究表明它会导致分类精度相对较低.文中针对互信息倾向选择低频词的不足,提出了一种新的特征评价函数TFMIIE,将信息熵和改进互信息相结合,其中改进互信息能够避免偏向低频的生僻词,而特征熵有利于去除类别不确定的特征词.实验结果表明,采用TFMIIE进行特征选择,用得到的特征子集表示文本和构建分类器,文本分类的准确率与召回率比采用互信息的方法提高了约40%,验证了所提出的基于改进互信息和信息熵的文本特征选择方法是有效的. 相似文献
10.
11.
吴新玲 《微电子学与计算机》2011,28(11)
提出了一种基于类的混合概率分类方法.该方法为每一类文本独立选取能代表其本质特性的主要特征,即不同类型的文本由不同的主要特征表示,并基于各类的主要特征分别为每类文本建立相应的概率分布模型,然后再根据朴素贝叶斯方法对未知类型的文本进行分类.实验结果表明:该方法简单有效且易于实现. 相似文献
12.
文章首先介绍文本分类预处理的几种方法及其不足之处,并提出一种改进的特征提取方法。然后,介绍几种文本分类算法,并指出其缺点。最后本文介绍支持向量机算法,结合改进后的文本预处理方法对网络文本进行分类,并通过与KNN对比分析说明了该算法的高效性能。 相似文献
13.
文本分类中改进型互信息特征选择的研究 总被引:5,自引:2,他引:3
互信息是文本分类中常用的特征选择方法.提出了一种新的基于互信息的特征选择方法.首先分析了特征选择影响文本分类精度的因素,将这些因素组合起来表征特征对于分类的强弱,并用公式直观地表示由组合因素计算出的特征值,根据这些值得大小选择对分类影响大的特征.最后理论证明了其可行性,并通过实验证明了该方法在提高分类精度方面比传统方法提高了10%. 相似文献
14.
一种基于散度差组合型文本特征降维方法 总被引:2,自引:2,他引:0
讨论了文本分类中特征降维的主要方法及其特点,分析了基于散度差准则的特征降维的原理和方法,在避开求逆矩阵问题的同时,通过对文本特征进行选择对文本特征集进行了第一次压缩,借助于加权散度差原理对特征集进行了二次抽取,在最低限度减少信息损失的前提下实现了特征维数的大幅度降低.试验结果表明,这种方法在文本分类上的效率较好. 相似文献
15.
基于蚁群算法的文本分类和聚类 总被引:1,自引:1,他引:1
为了研究并提高文本的分类和聚类算法的性能,笔者根据蚁群算法在TSP问题中的应用方法,将其改进引用到文本的分聚类中。在文本聚类中,改变蚂蚁的信息素释放机制,道路节点的聚合方式,最终将相似文本进行聚合。在文本的分类中,将所需要的分类信息装入蚂蚁,蚂蚁根据系统外部所希望的方式将文本分类。实验结果证明,这种新的算法可以使文本分类和聚类的准确度提高,蚁群算法在文本分类聚类中的应用是可行的。 相似文献
16.
中文文本倾向性分类技术比较研究 总被引:3,自引:1,他引:2
随着近几年互联网的发展,网络评论数量正日益增加。对这些网络评论进行挖掘和分析,识别出其中的情感倾向,可以给用户、企业、政府提供重要的决策支持。采用机器学习方法中的朴素贝叶斯和支持向量机分类模型,根据不同的停用词表、特征选择方法、特征加权方法的组合,对中文文本倾向性分类进行了研究。结论表明,采用保留情感信息相关词性的停用词表,以文档频率为特征选择方法,并应用基于绝对词频的支持向量机分类模型,能取得较好的分类效果。 相似文献
17.