首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 64 毫秒
1.
中文文本分类中的特征选择算法研究   总被引:34,自引:0,他引:34  
比较了文档频率、信息增益、互信息、X^2统计量、期望交叉熵、文本证据权以及几率比等7种常用于文本分类的特征选择算法。实验采用国家“八六三计划”中文文文本语料库和Rocchio分类器对以上的特征选择算法分别进行评估,测评结果表明,几率比法的性能优于其它特征选择算法。  相似文献   

2.
目前在文本分类领域较常用到的特征选择算法中,仅仅考虑了特征与类别之间的关联性,而对特征与特征之间的关联性没有予以足够的重视.在特征相关性分析的基础上,提出了一种新的算法,改进了特征选择算法中所出现的上述问题.实验验证了算法的可行性和有效性.  相似文献   

3.
互联网时代存在大量的文本数据,为了更加有效的利用文本信息,文本分类已成为当务之急.本文介绍了朴素贝叶斯算法的原理以及解决文本分类问题的流程,分析了朴素贝叶斯用于文本分类问题的优缺点,并且提出了改进方案.  相似文献   

4.
目前大多数文本自动分类系统都采用向量空间模型(VSM)来表示文档.针对常规的VSM文档表示方法不能反映概念的问题,文章对VSM进行了改进.在VSM的基础上,选取在同一个窗口单元中出现的高频词,用Apriori算法从这些高频词中挖掘出最大频繁词共现集,以此对VSM进行扩展后用来表示文档.实验表明,与用VSM表示文档相比,该方法使文本自动分类系统的性能有了显著的提高.  相似文献   

5.
文本分类,是一种对文档进行自动标记类别的技术。它是文本挖掘中的一个核心任务,也是近年来数据挖掘中的一个研究热点。在文章本分类中,所要处理的文档集中包含了很多特征,而分类算法中对于这些特征的处理和识别又需要进行大量的计算,目前尽管分类算法的准确率可以达到很高的水平,但分类算法的速度却因为受到硬件条件的限制而没有得到有效的提高,而网格计算可以弥补这一点缺陷。文章对传统的向量空间分类算法进行改进,并在Alchemi网格计算平台下测试,发现在网格环境下,文本分类的速度得到很大的提高。  相似文献   

6.
通过在不同文本数据集上的试验表明,文中提出的算法具有不错的表现。与文本分类中常用的特征选择算法IG、CHI相比,文中算法是有效的且能够提高分类的精确率。  相似文献   

7.
网络新闻自动分类已经成为当下的热点问题,SVM分类算法是文本分类中应用较为成熟的一种方法.文章针对SVM文本分类中特征选择和核函数选择的两个重要问题,在新闻文本实验环境下进行了探讨,结果表明使用互信息特征选择法且特征数在4000左右,使用SIGMOID核函数的情况下准确率与召回率均可达到97%的分类效果.  相似文献   

8.
适用于不确定文本分类的特征选择算法   总被引:1,自引:0,他引:1  
王博  贾焰  杨树强  周斌 《通信学报》2009,30(8):32-38
基于Hilbert-Schmidt依赖性准则提出了一种新颖的特征选择算法FSUNT,重点考虑特征选择过程中可能出现的模糊性和不确定性.针对类标号不确定而其他特征值确定的文本数据,通过考察特征与不确定的类标号间的Hilbert-Schmidt相关性,对特征进行排序,并选取最终的结果子集.最后大量真实与仿真实验结果表明,基于该算法可得到良好的分类效果和稳定性.  相似文献   

9.
互信息是一种常用的特征选择评价函数,但研究表明它会导致分类精度相对较低.文中针对互信息倾向选择低频词的不足,提出了一种新的特征评价函数TFMIIE,将信息熵和改进互信息相结合,其中改进互信息能够避免偏向低频的生僻词,而特征熵有利于去除类别不确定的特征词.实验结果表明,采用TFMIIE进行特征选择,用得到的特征子集表示文本和构建分类器,文本分类的准确率与召回率比采用互信息的方法提高了约40%,验证了所提出的基于改进互信息和信息熵的文本特征选择方法是有效的.  相似文献   

10.
根据工程项目中文本特点与用户业务需求,基于向量空间模型,结合示例检索与分类检索技术,设计与实现了文本分类检索系统,以面向对象中类图模型形式描述了系统的实现方法。为解决工程应用中出现的性能等问题,提出了各种改进优化方法,如采用特征提取将向量降维,减少存储空间,提高计算速度;采用分类检索缩小搜索范围,缩小检索时间;定时增量更新向量空间提高处理速度,最终使系统成功应用到了工程项目中。  相似文献   

11.
提出了一种基于类的混合概率分类方法.该方法为每一类文本独立选取能代表其本质特性的主要特征,即不同类型的文本由不同的主要特征表示,并基于各类的主要特征分别为每类文本建立相应的概率分布模型,然后再根据朴素贝叶斯方法对未知类型的文本进行分类.实验结果表明:该方法简单有效且易于实现.  相似文献   

12.
李倩 《电子技术》2014,(10):8-11
文章首先介绍文本分类预处理的几种方法及其不足之处,并提出一种改进的特征提取方法。然后,介绍几种文本分类算法,并指出其缺点。最后本文介绍支持向量机算法,结合改进后的文本预处理方法对网络文本进行分类,并通过与KNN对比分析说明了该算法的高效性能。  相似文献   

13.
文本分类中改进型互信息特征选择的研究   总被引:5,自引:2,他引:3  
互信息是文本分类中常用的特征选择方法.提出了一种新的基于互信息的特征选择方法.首先分析了特征选择影响文本分类精度的因素,将这些因素组合起来表征特征对于分类的强弱,并用公式直观地表示由组合因素计算出的特征值,根据这些值得大小选择对分类影响大的特征.最后理论证明了其可行性,并通过实验证明了该方法在提高分类精度方面比传统方法提高了10%.  相似文献   

14.
一种基于散度差组合型文本特征降维方法   总被引:2,自引:2,他引:0  
讨论了文本分类中特征降维的主要方法及其特点,分析了基于散度差准则的特征降维的原理和方法,在避开求逆矩阵问题的同时,通过对文本特征进行选择对文本特征集进行了第一次压缩,借助于加权散度差原理对特征集进行了二次抽取,在最低限度减少信息损失的前提下实现了特征维数的大幅度降低.试验结果表明,这种方法在文本分类上的效率较好.  相似文献   

15.
基于蚁群算法的文本分类和聚类   总被引:1,自引:1,他引:1  
为了研究并提高文本的分类和聚类算法的性能,笔者根据蚁群算法在TSP问题中的应用方法,将其改进引用到文本的分聚类中。在文本聚类中,改变蚂蚁的信息素释放机制,道路节点的聚合方式,最终将相似文本进行聚合。在文本的分类中,将所需要的分类信息装入蚂蚁,蚂蚁根据系统外部所希望的方式将文本分类。实验结果证明,这种新的算法可以使文本分类和聚类的准确度提高,蚁群算法在文本分类聚类中的应用是可行的。  相似文献   

16.
中文文本倾向性分类技术比较研究   总被引:3,自引:1,他引:2  
随着近几年互联网的发展,网络评论数量正日益增加。对这些网络评论进行挖掘和分析,识别出其中的情感倾向,可以给用户、企业、政府提供重要的决策支持。采用机器学习方法中的朴素贝叶斯和支持向量机分类模型,根据不同的停用词表、特征选择方法、特征加权方法的组合,对中文文本倾向性分类进行了研究。结论表明,采用保留情感信息相关词性的停用词表,以文档频率为特征选择方法,并应用基于绝对词频的支持向量机分类模型,能取得较好的分类效果。  相似文献   

17.
李向阳  陆建江  张亚非 《电子学报》2004,32(11):1915-1917
提出一种基于竞争分类的Web信息抽取方法,以信息片段与样本之间的相似度作为竞争力,通过信息片段对信息模板槽的竞争实现对信息片段的分类和噪声信息的过滤,直接从分类的角度抽取Web信息.较之基于规则的信息抽取方法,竞争分类法只需用户提供少量的标记样本.测试表明,该方法在没有用户提供特征提示信息的情况下,抽取信息仍能保持较高的准确率,适应性强;对数据项缺失和顺序变化较大的数据源,竞争分类法也具有较好的健壮性.  相似文献   

18.
在基于一种知识工程和统计学习相结合的文本信息分类算法基础上,提出了利用文本在名片图像中的版面位置信息来辅助分类.此方法充分利用了名片版面中各种文本内容之间在图像中空间位置上的相互关系,对提高名片信息的分类准确性有显著的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号