首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
在面临突发大型公共事件时虚假信息的广泛传播将具有极大的破坏性.虚假信息的传播将严重干扰疫情的救治工作,针对以往传统分类模型存在特征稀疏,准确率不高等问题.提出了一种基于Word2Vec的疫情虚假信息检测方法.该方法使用Word2Vec模型训练词向量,解决了传统向量空间模型的特征稀疏问题,再引入TFIDF对词向量进行加权...  相似文献   

2.
3.
文本分类是自然语言处理(NLP)领域中的基础任务,双向长短时记忆网络(BiLSTM)具有遗忘细胞状态中的信息和记忆新的信息、在上下文中依赖能力较好的优势.为进一步增强文本的特征表达,本文提出一种基于LDA的最大概率填充模型.首先,运用Word2Vec词嵌入方式生成文本向量;其次,根据LDA模型对文本向量矩阵进行填充,丰...  相似文献   

4.
针对目前数据库知识发现模型系统中传统文本信息抽取算法无法满足用户业务需求的问题,提出了一种基于用户需求描述的文本信息特征抽取模型。通过用户的业务需求模型进行特征化描述,将数据库中存储的原始本文信息进行预处理加工,计算的词频、权重,初步选取文本特征,根据用户需求描述计算特征相似度,过滤不相关的"噪声"信息,进而保留能够精确描述文本信息的特征。  相似文献   

5.
6.
鉴于词频-逆文本频率(term frequency-inverse document frequency,TF-IDF)算法仅考虑新闻文档内特征词的频率,没有考虑类间权重值的影响,基于此,提出了一种改进的TF-IDF算法,让文本实现更好的分类效果.新算法比较特征词在不同类别中的频数,将频数最高的类确定为特征词对该类的文...  相似文献   

7.
针对传统情感分析方法在复杂语境中特征表达能力有限、缺乏深层语义信息、模型分类准确率低等问题,文章提出一种基于Transformer和TextCNN融合的新机制。首先,使用jieba工具对微博文本进行分词处理,利用Word2Vec方法将文本转化为词向量,降低词向量中的噪声数据;其次,将词向量作为神经网络模型的输入,进一步对词向量特征进行筛选,提取更有价值的特征信息;最后,将不同粒度的词向量特征进行融合拼接,利用Softmax激活函数实现情感多分类,实验结果表明,文章所提出的情感分析模型正确率达到92.17%,证明了该模型的有效性。  相似文献   

8.
基于图模型的TextRank方法形成的摘要不会脱离文档本身,但在抽取文本特征的时候,传统的词向量获取方法存在一词多义的问题,而基于BERT的词向量获取方式,充分挖掘了文本语义信息,缓解了一词多义问题.对不同词嵌入方法进行了实验对比,验证了BERT模型的有效性.基于词频统计的相似度计算方法也忽略了句子的语义信息,文中选择...  相似文献   

9.
自动文本摘要生成是自然语言处理领域中颇具挑战性的问题之一,其任务是为书籍、篇章、新闻或者微博等某一文本资源生成简洁而又具有意义的文本摘要.TextRank算法是一种基于图的文本摘要生成算法,只利用当前文档即可实现关键词提取和文摘生成,因其简洁有效而得到广泛应用.本文在TextRank算法的基础上提出一个无监督抽取式联合...  相似文献   

10.
随着网络和各类社交媒体的盛行,越来越多的文本信息通过互联网呈现在人们面前。对于海量的文本数据,自然语言处理技术变得越来越实用,新闻文本分类便是其中一项重要的任务,其对制定新闻检索策略、新闻推荐、社会舆情监控等具有积极作用。文章通过分析文本表示模型与分类模型的研究现状,提出一种基于加权Word2Vec和TextCNN的新闻文本分类方法,在新闻文本多分类数据上进行实验。从实验结果上来看,在文本表示模型中,该文方法比TF-IDF模型、Word2Vec模型以及随机词嵌入模型在精确率、召回率和F1值上均有提高;在文本分类模型中,文章使用的TextCNN模型要比传统的机器学习模型以及循环神经网络模型在分类效果以及模型性能方面表现更出色。  相似文献   

11.
本文结合自然语言处理技术,以《庄子》内七篇文本为例,计算词频和逆文本频率指数,进而智能化地得到了文本的字频分布和不同篇目的文本内容特征信息。该方法意在尝试运用计算机技术辅助古籍研究,取得了较好的效果。  相似文献   

12.
如何利用数量庞大的专利并从中找到用户感兴趣的专利进行推荐是很多专利数据库迫切需要解决的问题。文中从专利文本的标题和摘要入手,提出一种基于文本挖掘的专利推荐方法。首先,利用词袋模型将专利文本转化成计算机能够识别的数据;其次,利用文本聚类算法完成专利数据集进行领域划分;再次,结合词频-逆文档频率特征权重计算和余弦相似度来选择合适的发明人进行专利的推荐;最后,以我国物流产业下的专利数据作为数据集完成文中所提方法的验证与分析。实验结果表明,基于文本挖掘的专利推荐研究能够实现对发明人的个性化推荐。  相似文献   

13.
重复数据和相似数据的处理是数据清洗的一项重要内容.针对招投标项目公告数据集存在大量重复信息的情况,结合该数据集为中文字符集且内容组织结构相对固定等特点,分析编辑距离、余弦相似和Simhash相似三种相似度算法的执行效率和有效性,并利用增加权重值、词袋预处理、编码预处理和分段保存比较等方法对算法进行持续优化.经测试,选择优化后的编辑距离算法对招投标项目公告数据中的相似(重复)数据进行清洗.  相似文献   

14.
基于中文分词的文本相似度动态规划算法   总被引:1,自引:0,他引:1  
肖侃  谭长庚  丁玲 《现代电子技术》2011,34(8):72-74,78
针对传统的基于动态规划的对论文的文本相似度计算的不足,提出了一种基于中文分词和动态规划的论文文本相似度计算方法,并对此进行了讨论。该方法克服了一般基于动态规划的计算方法所具有的效率低,判断准确率低的缺点。通过对实际中的论文数据库中论文进行测试和分析,该算法能提高计算准确率,并一定程度上提高了运算速度,可以应用于论文防抄袭系统中。  相似文献   

15.
一种基于数据偏斜的改进KNN文本分类   总被引:1,自引:1,他引:1  
KNN是一种简单、有效、非参数的分类算法.针对样本分布偏斜的分类环境,首先提出了一种改进的特征选择方法进行特征降维,在此基础上进一步提出了一种基于分布的改进KNN方法用于文本分类,降低了分布偏斜问题对决策函数的影响.试验表明,所提出的改进KNN文本分类方法具有较好的分类性能.  相似文献   

16.
微博中水军发表的评论内容具有重复或者相似性,提出了基于文本相似度的微博网络水军发现算法.评论内容可以用特征码来表示.特征码再通过高效的B-Tree来索引,使整个系统具有极高的处理效率.根据水军发帖的重复性或者相似性很高的特点,通过对多个相同或相似的评论内容进行统计分析找出出现次数频繁的用户,初步定义为水军.再对这些用户的评论内容进行分析,发现他们的评论内容基本上都是具有重复性.试验表明,该方法能够准确、有效地找出水军账户.  相似文献   

17.
传统Simhash算法是由Google公司提出以实现大规模文本去重的方法,其优势在于处理高效,且准确度高。当前,Simhash算法在文本检测、异常检测等领域有诸多应用。但传统Simhash算法的权值计算方式容易造成信息丢失,导致准确性降低。针对此问题,本文提出一种使用TF-IDF算法来计算权值的方式,并进行了系统设计与实现。结果表明,利用改进的Simhash算法实现的文本查重系统,其准确率、效率均优于传统方法。  相似文献   

18.
针对协同过滤算法存在着数据稀疏性、准确性以及可扩展性问题,提出了一种结合Word2Vec词向量模型和LSH局部敏感哈希的矩阵分解推荐算法。首先通过Word2Vec模型高速将词的相似性转换为向量之间的相似性,然后基于改进的LSH局部敏感哈希高速计算项目向量之间的相似矩阵,最后结合用户-项目原评分矩阵计算出未评分项目的预评分进行数据的填充,同时在ALS矩阵分解阶段加入相似性,以减少隐含特征因子信息的丢失。实验结果表明,改进的算法比传统的协同过滤推荐算法的MAE值低,具有更优的性能。  相似文献   

19.
方德坚 《电子世界》2013,(23):178-178,F0003
本文提出了基于文本分类的主观题自动评分模型。模型采用文本词性相似度和文本浅层相似度作为分类器的条件属性,在一定程度上提高了文本的语义理解。通过对已有文本的学习,使用考生分数作为分类类别构建决策树分类器。将待测文本输入决策树分类器从而实现答案的分类,即完成自动评分。通过与人工阅卷过程对比,验证了系统是有效可行的,符合人工阅卷的过程。  相似文献   

20.
将一种改进的隐马尔可夫模型(HMM)应用于文本分类中,在考虑其前向依赖的同时,需考虑状态的后向依赖性.将当前观测值和和当前状态对其后一状态的依赖性加入模型的学习,这样的改进模型能有效提高文本信息抽取准确率.在文本分类过程研究中,首先对训练样本进行文本预处理,对HMM分类器模型进行参数学习,建立HMM分类器后用测试集进行测试并做出性能评价.在性能评价中用改进的评测指标,可针对不同数据集做出准确评价,以及可对比不同分类工作在同一数据集上的性能,大大提高评价质量.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号