首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 63 毫秒
1.
蔡鑫 《电信科学》2020,36(11):121-126
针对互联网不良信息检测这一业务场景,探讨了基于网站文本内容进行检测的方法。回顾了经典的文本分析技术,重点介绍了Bert模型的关键技术特点及其两种不同用法。详细描述了利用其中的特征提取方法,进行网站不良信息检测的具体实施方案,并且与传统的TF-IDF模型以及word2vec+LSTM模型进行了对比验证,证实了这一方法的有效性。  相似文献   

2.
随着网络和各类社交媒体的盛行,越来越多的文本信息通过互联网呈现在人们面前。对于海量的文本数据,自然语言处理技术变得越来越实用,新闻文本分类便是其中一项重要的任务,其对制定新闻检索策略、新闻推荐、社会舆情监控等具有积极作用。文章通过分析文本表示模型与分类模型的研究现状,提出一种基于加权Word2Vec和TextCNN的新闻文本分类方法,在新闻文本多分类数据上进行实验。从实验结果上来看,在文本表示模型中,该文方法比TF-IDF模型、Word2Vec模型以及随机词嵌入模型在精确率、召回率和F1值上均有提高;在文本分类模型中,文章使用的TextCNN模型要比传统的机器学习模型以及循环神经网络模型在分类效果以及模型性能方面表现更出色。  相似文献   

3.
4.
目前的新闻分类研究以英文居多,而且常用的传统机器学习方法在长文本处理方面,存在局部文本块特征提取不完善的问题.为了解决中文新闻分类缺乏专门术语集的问题,采用构造数据索引的方法,制作了适合中文新闻分类的词汇表,并结合word2vec预训练词向量进行文本特征构建.为了解决特征提取不完善的问题,通过改进经典卷积神经网络模型结...  相似文献   

5.
6.
卓飞豹 《数字化用户》2022,(9):137-139,142
目前医院信息系统中还包括大量的非结构化数据,从中挖掘信息存在较大的难度。本研究采用ERNIE-TextCNN模型,对医学内镜报告进行文本分类。实验显示,相比单纯的ERNIE模型和TextCNN模型,ERNIE-TextCNN模型的精确率、召回率和F1分数上都有所提升,说明该模型能够有效地应用到医学文本分类领域。  相似文献   

7.
预训练模型主要从海量未标注、无结构化的数据中学习,但缺少外部知识指导,存在模型学习效率不高、模型效果不佳和知识推理能力受限等不足。如何在预训练模型中引入语言知识、世界知识等外部知识,提升模型效果以及知识记忆和推理能力是一个难题。本文从不同类型知识的引入、融合知识的方法、缓解知识遗忘的方法等角度,介绍知识增强预训练模型的发展,并以知识增强预训练模型百度文心为例,详细探讨知识增强预训练模型的原理和应用。  相似文献   

8.
人类历史的发展已经进入到网络时代。现在社会信息的发布量和使用量随着网络的发展突飞猛进,这么大的信息量,我们不可能全部的接受。此时,对有用信息快速、精确的掌握就显得尤为重要。方法是随着困难一起产生的,为了解决这个问题,文本自动分类系统就产生了,它的工作原理是对文本的内容在指定的分类体系下进行自动区分类别的过程。目前在所有分类算法中,有一种新兴的机器学习算法,即Boosting算法,这种算法经过科学验证后,其效果是非常理想的,且本身有着其它分类算法无可比拟的优点。  相似文献   

9.
基于高效用神经网络的文本分类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
吴玉佳  李晶  宋成芳  常军 《电子学报》2020,48(2):279-284
现有的基于深度学习的文本分类方法没有考虑文本特征的重要性和特征之间的关联关系,影响了分类的准确率.针对此问题,本文提出一种基于高效用神经网络(High Utility Neural Networks,HUNN)的文本分类模型,可以有效地表示文本特征的重要性及其关联关系.利用高效用项集挖掘(Mining High Utility Itemsets,MHUI)算法获取数据集中各个特征的重要性以及共现频率.其中,共现频率在一定程度上反映了特征之间的关联关系.将MHUI作为HUNN的挖掘层,用于挖掘每个类别数据中重要性和关联性强的文本特征.然后将这些特征作为神经网络的输入,再经过卷积层进一步提炼类别表达能力更强的高层次文本特征,从而提高模型分类的准确率.通过在6个公开的基准数据集上进行实验分析,提出的算法优于卷积神经网络(Convolutional Neural Networks,CNN),循环神经网络(Recurrent Neural Networks,RNN),循环卷积神经网络(Recurrent Convolutional Neural Networks,RCNN),快速文本分类(Fast Text Classifier,FAST),分层注意力网络(Hierarchical Attention Networks,HAN)等5个基准算法.  相似文献   

10.
网络新闻自动分类已经成为当下的热点问题,SVM分类算法是文本分类中应用较为成熟的一种方法.文章针对SVM文本分类中特征选择和核函数选择的两个重要问题,在新闻文本实验环境下进行了探讨,结果表明使用互信息特征选择法且特征数在4000左右,使用SIGMOID核函数的情况下准确率与召回率均可达到97%的分类效果.  相似文献   

11.
Qing LI  Jiang ZHONG  Lili LI  Qi LI 《通信学报》2019,40(12):41-50
In the process of knowledge service,in order to meet the fragmentation management needs of intellectualization,knowledge ability,refinement and reorganization content resources.Through deep analysis and mining of semantic hidden knowledge,technology,experience,and information,it broke through the existing bottleneck of traditional semantic parsing technology from Text-to-SQL.The PT-Sem2SQL based on the pre-training mechanism was proposed.The MT-DNN pre-training model mechanism combining Kullback-Leibler technology was designed to enhance the depth of context semantic understanding.A proprietary enhancement module was designed that captured the location of contextual semantic information within the sentence.Optimize the execution process of the generated model by the self-correcting method to solve the error output during decoding.The experimental results show that PT-Sem2SQL can effectively improve the parsing performance of complex semantics,and its accuracy is better than related work.  相似文献   

12.
基于语义分析的倾向性文本过滤   总被引:12,自引:0,他引:12  
采用基于统计的文本过滤技术对具有倾向性的文本进行过滤的效果并不理想,原因在于基于统计的方法忽略了文本中的语义约束,无法有效识别倾向性信息。本文提出一种基于语义分析的文本过滤技术,将文本中的语义关系加以考虑,能高效地识别和过滤倾向性文本信息。  相似文献   

13.
王霏  黄俊  文洪伟 《电讯技术》2022,62(1):130-137
针对深度学习文本检测算法存在运行速度慢、模型体积大等问题,提出了基于改进的YOLOv3(You Only Look Once v3)文本检测方法(mobile-text-YOLOv3).通过深度可分离卷积思想轻量化Darknet-53网络,在高层特征借助双线性插值和偏移层使卷积核具有可变感受野,较大地改善了模型的性能;...  相似文献   

14.
何尧  陈治平  杨亚蕾 《信息技术》2007,31(12):116-118
中心法运算速度快,效率高,而多层次分类器能有效地应对较多类别的分类任务,为此,提出了基于中心法的多层次分类法,通过分析大量类别之间的关系,把类别组织成树状结构,并在特征选择时,根据层次结构特色采取去根处理,在分类时采用中心法来进行分类。经过实验,与一般的层次分类算法、平面分类算法进行比较,该分类法具有较好的性能。  相似文献   

15.
牛洪波  丁华福 《信息技术》2007,31(12):100-102
针对目前网络上不良信息变换不同方式逃脱过滤以及中文分词器分词后存在的问题,提出了基于文本分类技术的信息过滤方法,通过在原有的文本自动分类系统中添加三个过滤模块,以过滤掉无用信息、单个独立字、敏感信息等不良内容,从而保障分类安全高效。  相似文献   

16.
基于Web网页语料构建动态语言模型   总被引:1,自引:0,他引:1  
为语音识别系统构建语言模型,首先要进行语料准备,语料来源决定语言模型的性能。Web网页中涵盖了各种最新的语言现象,为语料准备提供了最多样化的资源。但Web网页中语义完整字串通常夹杂在格式、标记、广告等无用字串中。首先介绍语言模型的训练算法和更新方法,继而提出一种从HTML文档提取用于训练语言模型的语义完整汉字字串的算法,最后给出语料提取实验结果、语言模型训练结果和语言模型的动态更新结果。为基于Web网页语料动态更新语言模型提供了一个完整的解决方案。  相似文献   

17.
针对多方向排列的文本因其尺度变化大、复杂背景干扰而导致检测效果仍不甚理想的问题,本文提出了一种基于注意力机制的多方向文本检测方法。首先,考虑到自然场景下干扰信息多,构建文本特征提取网络(text feature information ResNet50,TF-ResNet),对图像中的文本特征信息进行提取;其次,在特征融合模型中加入文本注意模块(text attention module, TAM),抑制无关信息的同时突出显示文本信息,以增强文本特征之间的潜在联系;最后,采用渐进扩展模块,逐步融合扩展前部分得到的多个不同尺度的分割结果,以获得精确检测结果。本文方法在数据集CTW1500、ICDAR2015上进行实验验证和分析,其F值分别达到80.4%和83.0%,比次优方法分别提升了2.0%和2.4%,表明该方法在多方向文本检测上与其他方法相比具备一定的竞争力。  相似文献   

18.
文本分类是信息检索和文本挖掘的关键技术之一。提出了一种基于支持向量数据描述(SVDD)的多类文本分类算法,用支持向量描述训练求得包围各类样本的最小超球体,并使得分类间隔最大化,在测试阶段,引入基于核空间k-近邻平均距离的判别准则,判断样本所属类别。实验结果表明,该方法具有很好的泛化能力和很好的时间性能。  相似文献   

19.
车载屏幕文本图片显示内容丰富、背景多样性、文本信息较多且大小、方向不定等问题,导致文本检测与识别过程中出现准确率低、检测速度慢的问题,因此提出了一种基于深度学习的车载屏幕文本检测与识别的系统.该系统的文本检测模型采用改进的EAST网络,应用DenseNet网络作为特征提取网络以增强特征重用,为了改善长文本的预测效果,采...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号