共查询到20条相似文献,搜索用时 15 毫秒
1.
基于机器学习的文本分类方法综述 总被引:1,自引:0,他引:1
文本分类是信息检索与数据挖掘领域的核心技术,是机器学习领域新的研究热点。本文对现有的基于机器学习的文本分类方法进行了详细的介绍,分析了各种方法的优缺点,并阐述了文本分类方法未来的发展趋势。 相似文献
2.
3.
王志国 《科技情报开发与经济》2016,(12):129-133
分析了微博短文本的专有特征,介绍了微博短文本的预处理流程.以新浪微博为网络舆情数据获取平台,简述了微博文本分类处理实现过程,基于Hadoop进行了网络舆情微博分类设计,为网络舆情监控任务的完成做数据依据. 相似文献
4.
赵鹏 《齐齐哈尔大学学报(自然科学版)》2008,24(1):55-60
文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.其中基于支持向量机的文本分类方法的研究是信息检索领域的一个重要分支.本文首先讨论了该领域的研究状况,接着阐述并分析了在该领域中的主要研究方法以及实例, 最后对该领域研究中存在的问题和方向进行了分析. 相似文献
5.
为了有效地利用信息技术发展而产生的海量信息,信息检索与数据挖掘得到了快速的发展,通过对传统支持向量机的特点分析,针对其在文本分类中的局限性,采用了一种基于二叉树的模糊支持向量机的多分类算法,通过实验证明该算法有更好的抗干扰能力和更好的分类效果。 相似文献
6.
7.
深度学习作为机器学习领域新的研究方向,现已在图像处理、语音识别和机器翻译等领域取得了突破性的进展.在处理自然语言任务中,深度学习建立在低层特征基础上,组合形成更加抽象的高层特征,用以完成复杂的语言模型构建、语义理解和文本分类等任务,深受研究人员的关注.文本分类是自然语言处理中的一个重要应用,在文本信息处理过程中有着关键... 相似文献
8.
分别利用用户名和微博文本对个人与非个人两种用户类型进行判别,并对不同的特征(例如:字特征、词特征等)进行研究分析;其次,在针对用户名和微博文本的两个分类器的基础上,使用贝叶斯融合方法进行分类器融合,充分利用两种文本分类信息同时进行用户类型判断。实验结果表明此方法可以达到较高的识别准确率,并且分类器融合方法明显优于仅利用用户名或者微博文本的分类方法。 相似文献
9.
基于领域知识的文本分类 总被引:3,自引:0,他引:3
提出了一种基于知识的文本分类方法,其中引入领域知识,利用领域特征作为文本特征,增强文本表示能力,将文本分类过程看作集聚计算过程.文本索引过程采用了改进型特征选取和权重计算方法.提出了一种基于互信息的学习算法,从训练语料中自动学习领域特征集聚计算公式.实验结果显示基于领域知识的文本分类技术总体性能优于传统的贝叶斯分类模型,领域知识的应用能够有效改善对相似主题和相反主题的分类性能. 相似文献
10.
11.
微博数据的情感分析具有重要的应用价值和研究价值,是网络文本挖掘领域的研究热点。微博消息非常短而且稀疏,同时包含大量的不规则词语,噪声很强,给传统的情感分析方法带来了很大的挑战。受社会科学的相关理论的启发,该文尝试利用微博消息的社交语境来帮助解决情感分析所面临的稀疏性强和噪声大的困难。由于文本向量的维度很高,而具有情感倾向的词只占其中较少的一部分,因此将Lasso方法加进LR(logistic regression)模型中以提高模型的鲁棒性。在真实的英文Twitter数据集上的实验结果表明,加入社交语境和模型的稀疏约束能够有效提高微博数据情感分类的准确率。 相似文献
12.
在简单介绍自然免疫系统功能和特性的基础上,依据生物免疫系统免疫记忆特性,提出一种人工免疫网络记忆分类器。实验证明,该分类器能够快速准确地对文本进行分类。 相似文献
13.
14.
为了提高党政机关公文办理的自动化、科学化程度,尝试将业已成熟的汉语多类文本分类技术应用于机关公文办理系统中,并加入专家评估和反馈模块,使该系统具备"渐进式学习"的能力,将公文办理的经验积累在数据库中,不断提高输出结果的准确度.经过实验证实了文本分类技术在党政机关公文办理中的应用价值. 相似文献
15.
文本分类的主要任务是在预先给定的类别标记集合下,根据文本内容判定它的类别。特征选择是文本分类中的一个重要环节。本文对文档频率(DF)、信息增益(IG)、互信息(MI)、x2统计量(CHI)四种特征选择方法在中文语料上进行了性能比较。实验结果表明IG方法较其它三种方法有一定的优势。 相似文献
16.
提出了改进的文本相似度计算方法,在计算文本的相似度时,赋予不同文本块中的句子不同的权值,同时直接去掉短句子和合并高相似度的句子以精简句子包中句子数量以提高运算速度.改进后的文本相似度计算方法为:先根据句子相似度的计算方法计算句子的相似度,再计算文本块的相似度,最后按照文本块的权值计算整个文本的相似度.经试验证明,改进后的算法在文本召回率、准确率和F1值上都有明显的提高. 相似文献
17.
随着网络信息的迅猛发展,如何快捷、准确地识别和获取有用信息显得更为重要。文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。Boosting算法是一种新兴的机器学习算法。在文本分类中应用Boosting算法经过试验证明是有效的,并且优于目前的大多数分类算法。 相似文献
18.
19.
特征加权是一种依据特征在分类中起到的作用为特征赋予相应权重的过程,是为了提高分类性能而为特征标记权重的策略.基于类空间密度提出了两个新的特征加权算法:tf* ICSDF和ICSDF-based.实验中,在RCV1-4和20 Newsgroups数据集上,采用支持向量机分类器将提出的方法进行了验证.实验结果显示,该方法相比传统的特征加权方法(prob-based、tf*icf和icf-based)可以有效地提升文本分类性能. 相似文献
20.
基于改进分类模型的文本分类系统实现 总被引:1,自引:0,他引:1
吕佳 《重庆师范大学学报(自然科学版)》2009,26(2):79-83
提出一种基于改进的分类模型的文本分类系统来实现文本的自动分类.针对传统的特征提取算法不能很好区分特征词在类内和类间分布情况的缺陷,该系统利用方差对该算法作了改进,用改进的特征提取算法量化各个特征词的权重,为了降低特征向量的维数,采用为每个类建分类器的分类模型,利用遗传算法来修正各个类特征词的权重,直到为每个类训练出能够代表本类的特征向量,最后用这些类的特征向量进行分类.通过在同一数据集上进行对比实验,说明本文提出的改进分类模型的文本分类系统是正确可行的. 相似文献