共查询到20条相似文献,搜索用时 15 毫秒
1.
随着互联网的快速发展,文本信息量巨大,大规模的文本处理已经成为一个挑战。文本处理的一个重要技术便是分类,基于SVM的传统文本分类算法已经无法满足快速的文本增长分类。于是如何利用过时的历史文本数据(源任务数据)进行迁移来帮助新产生文本数据进行分类显得异常重要。文章提出了基于半监督的SVM迁移学习算法(Semi-supervised TL_SVM)来对文本进行分类。首先,在半监督SVM的模型中引入迁移学习,构建分类模型。其次,采用交互迭代的方法对目标方程求解,最终得到面向目标领域的分类器。实验验证了基于半监督的SVM迁移学习分类器具有比传统分类器更高的精确度。 相似文献
2.
Co-training算法要求两个特征视图满足一致性和独立性假设,但是,许多实际应用中不存自然的划分且满足这种假设的两个视图,且直接评估两个视图的独立性有一定的难度.分析Co-training的理论假设,本文把寻找两个满足一致性和独立性特征视图的目标,转变成寻找两个既满足一定的正确性,又存在较大的差异性的两个基分类器的问题.首先利用特征评估函数建立多个特征视图,每个特征视图包含足够的信息训练生成一个基分类器,然后通过评估基分类器之间的差异性间接评估二者的独立性,选择两个满足一定的正确性和差异性比较大的基分类器协同训练.根据每个视图上采用的分类算法是否相同,提出了两种改进算法TV-SC和TV-DC.实验表明改进的TV-SC和TV-DC算法明显优于基于随机分割特征视图的Co-Rnd算法,而且TV-DC算法的分类效果要优于TV-SC算法. 相似文献
3.
4.
为解决实际应用场景中常面临的数据标注不足的问题,提出一种基于变分主题模型的半监督文本分类模型。首先使用无监督变分主题模型挖掘出语义信息集中的文档-主题分布,作为有效的文档特征表示,再通过半监督方式训练分类器。基于神经网络的变分主题模型相较传统的主题模型,不仅可以得到合理的主题,而且推断速度更快。在20NewsGroup等数据集上的实验结果表明,所提出的模型仅使用30%的训练数据就可以取得与使用90%训练数据的半监督基线模型相当甚至更好的结果,证明了所提出模型的正确性和实用性。 相似文献
5.
6.
文本分类将自然语言文本按内容归入一个或多个预定义类别中,在许多信息组织和管理中都是一项重要的内容。不同算法的分类;佳确性各不相同。在文本分类领域,SVM分类器是一种常用且效果较好的分类器,具有较严密的理论基础。对SVM分类器进行了分析,提出了利用增量模式实现多类文本分类的算法。实验表明:增量方法大大减少新类增加时分类器更新所需要的学习步骤和时间,是一种较好的分类算法。 相似文献
7.
8.
9.
10.
互联网时代存在大量的文本数据,为了更加有效的利用文本信息,文本分类已成为当务之急.本文介绍了朴素贝叶斯算法的原理以及解决文本分类问题的流程,分析了朴素贝叶斯用于文本分类问题的优缺点,并且提出了改进方案. 相似文献
11.
《电子技术与软件工程》2017,(8)
人类历史的发展已经进入到网络时代。现在社会信息的发布量和使用量随着网络的发展突飞猛进,这么大的信息量,我们不可能全部的接受。此时,对有用信息快速、精确的掌握就显得尤为重要。方法是随着困难一起产生的,为了解决这个问题,文本自动分类系统就产生了,它的工作原理是对文本的内容在指定的分类体系下进行自动区分类别的过程。目前在所有分类算法中,有一种新兴的机器学习算法,即Boosting算法,这种算法经过科学验证后,其效果是非常理想的,且本身有着其它分类算法无可比拟的优点。 相似文献
12.
张震 《信息技术与信息化》2023,(6):121-124
深度迁移学习技术是通过深度神经网络从一项任务中获得的知识来解决其他相关任务,作为机器学习的一种研究方向,已经得到广泛应用。文章首先介绍了在自然语言处理任务中深度迁移学习应用于文本分类的背景,深度迁移学习的定义,其次通过文献分析了近几年深度迁移学习以实例、映射、网络和对抗四种迁移方式及在文本分类中应用的现状,最后对借助深度迁移学习模型完成文本分类任务的应用进行总结和展望。 相似文献
13.
本文基于深度学习框架及自然语言处理,将政企类文本智能分类过程中的文本预处理、模型构建、分类效果比较等环节进行了实现与分析。自然语言处理是文本分类的有效手段,在所有的文本分类语境中,政企类文本因其文本较长、类别较多、文本质量不一等特点,在文本分类中取得的效果一般。而随着政务服务水平的提高以及对信息化、智能化的要求逐渐提高,政企类文本智能分类的实现变得更加重要。在实验过程中,本文采用了DNN、CNN、LSTM、BERT等模型进行实验处理,经过比较以及模型优化,最终取得了较优的结果,并分析了其在实际工程项目中的具体应用场景。 相似文献
14.
15.
文中旨在研究基于深度学习的垃圾邮件文本分类方法,该方法结合了卷积神经网络(CNN)和循环神经网络(RNN)的模型,通过对邮件文本进行特征提取和分类,能高效、准确地对垃圾邮件进行分类。文中以卷积神经网络和循环神经网络为实验对象,提出了一种垃圾邮件文本分类方法,并在公开数据集上进行了实验。实验结果表明,该方法在垃圾邮件文本分类任务上具有较高的准确率和召回率。 相似文献
16.
将半监督学习应用到应用流分类问题中,提出了一种基于半监督聚类的应用流分类算法(PSOSC).首先采用粒子群优化的K均值聚类方法对大量的无标记数据和少量的标记数据进行聚类,利用少量标记数据确定簇与应用类型的映射关系,实现应用流分类.实验表明PSOSC算法有较高的流准确率,同时,降低了对标记数据的需求. 相似文献
17.
基于蚁群算法的文本分类和聚类 总被引:1,自引:1,他引:1
为了研究并提高文本的分类和聚类算法的性能,笔者根据蚁群算法在TSP问题中的应用方法,将其改进引用到文本的分聚类中。在文本聚类中,改变蚂蚁的信息素释放机制,道路节点的聚合方式,最终将相似文本进行聚合。在文本的分类中,将所需要的分类信息装入蚂蚁,蚂蚁根据系统外部所希望的方式将文本分类。实验结果证明,这种新的算法可以使文本分类和聚类的准确度提高,蚁群算法在文本分类聚类中的应用是可行的。 相似文献
18.
与传统的机器学习模型相比,深度学习模型试图模仿人的学习思路,通过计算机自动进行海量数据的特征提取工作。文本分类是自然语言处理中的一个重要应用,在文本信息处理过程中具有关键作用。过去几年,使用深度学习方法进行文本分类的研究激增并取得了较好效果。文中简要介绍了基于传统模型的文本分类方法和基于深度学习的文本分类方法,回顾了先进文本分类方法并重点关注了其中基于深度学习的模型,对近年来用于文本分类的深度学习模型的研究进展以及成果进行介绍和总结,并对深度学习在文本分类领域的发展趋势和研究的难点进行了总结和展望。 相似文献
19.