首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
随着互联网的快速发展,文本信息量巨大,大规模的文本处理已经成为一个挑战。文本处理的一个重要技术便是分类,基于SVM的传统文本分类算法已经无法满足快速的文本增长分类。于是如何利用过时的历史文本数据(源任务数据)进行迁移来帮助新产生文本数据进行分类显得异常重要。文章提出了基于半监督的SVM迁移学习算法(Semi-supervised TL_SVM)来对文本进行分类。首先,在半监督SVM的模型中引入迁移学习,构建分类模型。其次,采用交互迭代的方法对目标方程求解,最终得到面向目标领域的分类器。实验验证了基于半监督的SVM迁移学习分类器具有比传统分类器更高的精确度。  相似文献   

2.
唐焕玲  林正奎  鲁明羽 《电子学报》2008,36(Z1):138-143
 Co-training算法要求两个特征视图满足一致性和独立性假设,但是,许多实际应用中不存自然的划分且满足这种假设的两个视图,且直接评估两个视图的独立性有一定的难度.分析Co-training的理论假设,本文把寻找两个满足一致性和独立性特征视图的目标,转变成寻找两个既满足一定的正确性,又存在较大的差异性的两个基分类器的问题.首先利用特征评估函数建立多个特征视图,每个特征视图包含足够的信息训练生成一个基分类器,然后通过评估基分类器之间的差异性间接评估二者的独立性,选择两个满足一定的正确性和差异性比较大的基分类器协同训练.根据每个视图上采用的分类算法是否相同,提出了两种改进算法TV-SC和TV-DC.实验表明改进的TV-SC和TV-DC算法明显优于基于随机分割特征视图的Co-Rnd算法,而且TV-DC算法的分类效果要优于TV-SC算法.  相似文献   

3.
一个算法的二元分类器构建通常包含两个集合样例,其中一组为正例样本,另一组为负例样本。实际上,我们使用的很多生物数据库,如磷酸激酶抑制剂数据库并非标准数据,磷酸激酶抑制剂数据库只含有不完整的正例样本和未标注样本数据集。这些未标注样本中,既包含正例样本也有负例样本。文章旨在解决的问题是对于非标准数据构建标准二元分类器从而实现未知磷酸激酶抑制剂筛选。通过未标注样本概率输出,对未知磷酸激酶抑制剂进行预测。文章对该PU学习算法进行性能估计,结果显示该算法具有较高的预测性能。  相似文献   

4.
赵书安  周木春 《电子器件》2023,46(2):463-468
为解决实际应用场景中常面临的数据标注不足的问题,提出一种基于变分主题模型的半监督文本分类模型。首先使用无监督变分主题模型挖掘出语义信息集中的文档-主题分布,作为有效的文档特征表示,再通过半监督方式训练分类器。基于神经网络的变分主题模型相较传统的主题模型,不仅可以得到合理的主题,而且推断速度更快。在20NewsGroup等数据集上的实验结果表明,所提出的模型仅使用30%的训练数据就可以取得与使用90%训练数据的半监督基线模型相当甚至更好的结果,证明了所提出模型的正确性和实用性。  相似文献   

5.
汪少敏  杨迪  任华 《电信科学》2018,34(12):117-124
大数据时代,文本分类是文本数据挖掘和文本价值探索领域的重要工作。传统的文本分类系统存在特征提取能力弱、分类准确率不高的问题。相对于传统的文本分类技术,深度学习技术具有准确率高、特征提取有效等诸多优势,有必要将深度学习技术引入文本分类系统,以解决传统文本分类系统存在的问题。在分析传统文本分类系统的基础上,提出了基于深度学习的文本分类系统的体系架构和关键技术,同时对传统分类模型、TextCNN、CNN+LSTM多种分类模型进行了验证比对。  相似文献   

6.
文本分类将自然语言文本按内容归入一个或多个预定义类别中,在许多信息组织和管理中都是一项重要的内容。不同算法的分类;佳确性各不相同。在文本分类领域,SVM分类器是一种常用且效果较好的分类器,具有较严密的理论基础。对SVM分类器进行了分析,提出了利用增量模式实现多类文本分类的算法。实验表明:增量方法大大减少新类增加时分类器更新所需要的学习步骤和时间,是一种较好的分类算法。  相似文献   

7.
王丁  运海红  张辉 《信息技术》2005,29(3):64-65
利用贝叶斯算法,通过对训练文本的学习,构建了一个文本分类器,从而实现了本文提出的自动分类的目标。贝叶斯分类算法是现在比较流行的方法,它的分类效果比较好,简单而且高效,可以通过大规模的训练语料提高分类的质量。文本的分类是选择最有可能生成该文本的类。只有建立了知识库,分类进行训练,才可以构造相应的分类器,对相关的文本进行分类。  相似文献   

8.
本文针对层出不穷的文本分类需求,重点针对基础算法和数据标注进行了研究。  相似文献   

9.
针对如何使用标记和未标记数据进行Web分类这一关键性问题,探索一种生成模型和判别模型相互结合的分类器,在无标记训练集中采用最大似然估计,构造一种具有良好分类性能的半监督分类器。利用狄利克雷-多项式混合分布对文本进行建模,提出了适用于半监督学习的混合模型。针对半监督学习的EM算法收敛速度过快,容易陷入局部最优的难题,引入两种智能优化的方法——模拟退火算法和遗传算法进行分析和处理,结合这两种算法形成一种新型智能的半监督分类算法,并且验证了该算法的可行性。  相似文献   

10.
互联网时代存在大量的文本数据,为了更加有效的利用文本信息,文本分类已成为当务之急.本文介绍了朴素贝叶斯算法的原理以及解决文本分类问题的流程,分析了朴素贝叶斯用于文本分类问题的优缺点,并且提出了改进方案.  相似文献   

11.
人类历史的发展已经进入到网络时代。现在社会信息的发布量和使用量随着网络的发展突飞猛进,这么大的信息量,我们不可能全部的接受。此时,对有用信息快速、精确的掌握就显得尤为重要。方法是随着困难一起产生的,为了解决这个问题,文本自动分类系统就产生了,它的工作原理是对文本的内容在指定的分类体系下进行自动区分类别的过程。目前在所有分类算法中,有一种新兴的机器学习算法,即Boosting算法,这种算法经过科学验证后,其效果是非常理想的,且本身有着其它分类算法无可比拟的优点。  相似文献   

12.
深度迁移学习技术是通过深度神经网络从一项任务中获得的知识来解决其他相关任务,作为机器学习的一种研究方向,已经得到广泛应用。文章首先介绍了在自然语言处理任务中深度迁移学习应用于文本分类的背景,深度迁移学习的定义,其次通过文献分析了近几年深度迁移学习以实例、映射、网络和对抗四种迁移方式及在文本分类中应用的现状,最后对借助深度迁移学习模型完成文本分类任务的应用进行总结和展望。  相似文献   

13.
本文基于深度学习框架及自然语言处理,将政企类文本智能分类过程中的文本预处理、模型构建、分类效果比较等环节进行了实现与分析。自然语言处理是文本分类的有效手段,在所有的文本分类语境中,政企类文本因其文本较长、类别较多、文本质量不一等特点,在文本分类中取得的效果一般。而随着政务服务水平的提高以及对信息化、智能化的要求逐渐提高,政企类文本智能分类的实现变得更加重要。在实验过程中,本文采用了DNN、CNN、LSTM、BERT等模型进行实验处理,经过比较以及模型优化,最终取得了较优的结果,并分析了其在实际工程项目中的具体应用场景。  相似文献   

14.
由于网络流量表现出突发和自相似等动态特性,使得网络应用很难进行准确分类,通过对网络应用类型进行分类可以对影响网络资源分布的新应用进行归类,在一定程度上规避了新应用识别的局限性.通过使用朴素贝叶斯、支持向量机和C4.5决策树三种监督学习算法从细粒度层上对四种网络流量应用类型进行分类对比,实验表明,使用C4.5决策树算法构...  相似文献   

15.
张天润 《移动信息》2023,45(10):167-169
文中旨在研究基于深度学习的垃圾邮件文本分类方法,该方法结合了卷积神经网络(CNN)和循环神经网络(RNN)的模型,通过对邮件文本进行特征提取和分类,能高效、准确地对垃圾邮件进行分类。文中以卷积神经网络和循环神经网络为实验对象,提出了一种垃圾邮件文本分类方法,并在公开数据集上进行了实验。实验结果表明,该方法在垃圾邮件文本分类任务上具有较高的准确率和召回率。  相似文献   

16.
将半监督学习应用到应用流分类问题中,提出了一种基于半监督聚类的应用流分类算法(PSOSC).首先采用粒子群优化的K均值聚类方法对大量的无标记数据和少量的标记数据进行聚类,利用少量标记数据确定簇与应用类型的映射关系,实现应用流分类.实验表明PSOSC算法有较高的流准确率,同时,降低了对标记数据的需求.  相似文献   

17.
基于蚁群算法的文本分类和聚类   总被引:1,自引:1,他引:1  
为了研究并提高文本的分类和聚类算法的性能,笔者根据蚁群算法在TSP问题中的应用方法,将其改进引用到文本的分聚类中。在文本聚类中,改变蚂蚁的信息素释放机制,道路节点的聚合方式,最终将相似文本进行聚合。在文本的分类中,将所需要的分类信息装入蚂蚁,蚂蚁根据系统外部所希望的方式将文本分类。实验结果证明,这种新的算法可以使文本分类和聚类的准确度提高,蚁群算法在文本分类聚类中的应用是可行的。  相似文献   

18.
与传统的机器学习模型相比,深度学习模型试图模仿人的学习思路,通过计算机自动进行海量数据的特征提取工作。文本分类是自然语言处理中的一个重要应用,在文本信息处理过程中具有关键作用。过去几年,使用深度学习方法进行文本分类的研究激增并取得了较好效果。文中简要介绍了基于传统模型的文本分类方法和基于深度学习的文本分类方法,回顾了先进文本分类方法并重点关注了其中基于深度学习的模型,对近年来用于文本分类的深度学习模型的研究进展以及成果进行介绍和总结,并对深度学习在文本分类领域的发展趋势和研究的难点进行了总结和展望。  相似文献   

19.
介绍了中文文本分类系统的原理,在特征提取上采用了文档频率法(DF)与潜在语义分析法(K认)相结合的方法,先采用DF法过滤掉DF值低的词条,降低文本矩阵的稀疏性,然后使用LSA法进行词语间的语义分析,消除同义词和多义词的影响,提高文本分类的速度与精确度。实验结果表明使用此种降维方法取得了良好的效果。  相似文献   

20.
通过在不同文本数据集上的试验表明,文中提出的算法具有不错的表现。与文本分类中常用的特征选择算法IG、CHI相比,文中算法是有效的且能够提高分类的精确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号