首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 12 毫秒
1.
投诉识别系统在保证热点投诉正确分类、提高电信行业的服务质量中起到很重要的作用.由于电信行业的客户投诉有其特殊性,所有的投诉必须在很短的时间内分类完成,从而往往会发生导航分类错误的现象.提出了一套基于文本挖掘的模型,该模型能够智能地将热点投诉分类到正确的投诉导航上去.实验表明:该模型能够有效地进行投诉文本分类.  相似文献   

2.
张晖  张艳 《科技信息》2007,(30):87-87
基于Web的文本挖掘是文本挖掘的一个重要的组成部分,本文对文本挖掘的主要过程如文本预处理、特征表示、特征提取等进行了讨论。  相似文献   

3.
该文主要针对中文微博的细粒度情绪识别技术中的关键技术展开研究,分析了中文微博的研究难点和微博情感表达特征,提出了一种微博文本情绪显性特征的多策略集成分析法。最后实验组以新浪微博中某一主题为实验数据,对"乔任梁去世"事件这一热点话题的评论文本数据集进行分析,验证了该文的微博情感分析能力,同时还将情感分析结果进行了可视化展示。  相似文献   

4.
随着旅游网络平台不断的普及,研究和评价旅游目的地已逐渐成为游客选择参考的重要依据;针对重庆旅游业快速发展的背景,选取重庆市5个热门景点——磁器口、洪崖洞、长江索道、武隆天生三桥和金佛山2015—2018年在携程旅行网、马蜂窝、百度旅游、美团网上的游客点评数据,利用文本挖掘法,分析游客对景点整体形象以及情感态度感知的共性和差异,建立模糊综合评价法对重庆旅游进行综合分析;结果发现:游客对于重庆旅游景点持一般满意态度,在商业化、排队时间长还有管理方面有很多意见,未来还有很大提升的空间,并进一步为提高服务水平、避免过度开发提出相关建议。  相似文献   

5.
如何通过有效的数据挖掘对互联网教育平台中的课程主题进行挖掘、聚类是当前互联网教育亟待解决的问题之一。实验基于文本信息对某互联网教育平台的1 472门课程体系的主题分布及类别进行了分析。采集了某平台1 472门课程的描述信息,进而通过自建词典和停用词库对文本进行切词分词,并通过TF-IDF对词频权重进行处理。利用LDA主题模型对课程的主题分布进行识别,发现了230个主题,并得到了每门课程在这230个主题下的文档–主题分布以及主题–词分布。进一步基于分布相似性函数对课程进行层次聚类,发现基于不同抽象层次主题的课程相互关联。最后将16个主题信息进行了可视化,这些主题分别从内容和数量两个角度反映出了课程的主题特征以及课程的聚合分布情况。  相似文献   

6.
文本挖掘技术研究   总被引:28,自引:0,他引:28  
文本挖掘是数据挖掘的重要内容之一,其应用十分广泛.对文本挖掘技术的基本概念和理论进行系统地归纳总结,首先给出了数据挖掘、文本挖掘和Web文本挖掘的基本概念及主要研究方向,然后分析了文本挖掘的过程和关键技术,最后对文本挖掘技术进行总结和展望.  相似文献   

7.
Web文本挖掘研究   总被引:4,自引:0,他引:4  
介绍Web文本的概念、一般过程和挖掘的关键技术,为智能化Web奠定一定基础。  相似文献   

8.
对电子商务网站的评论文本进行分词、去停用词等整理,通过词频统计提取特征词,应用词频-逆文档频率提高特征词的类别区分能力以增加特征词的准确性.在收集大量的电子商务网站的评论文本及一系列预处理后构建了特征词词库.采用词语相似度计算方法用于关键词向量与特征词词库相似度的计算.根据相似度计算结果对用户评论的商品进行排序以实现对用户商品的推荐.设计了商品推荐系统并完成了实验程序.利用收集到的用户评论文本完成了对商品的推荐实验,并对实验结果进行了考察与分析.  相似文献   

9.
张筱丹 《科技信息》2009,(4):165-166
本文讨论了Web挖掘的种类,其中的web文本挖掘是重要组成部分;并重点分析了文本特征提取、文本分类、文本聚类等Web文本挖掘中的关键技术。  相似文献   

10.
文本挖掘技术的研究   总被引:3,自引:0,他引:3  
本文对文本挖掘的过程极其关键技术进行了系统的分析,并探讨了其应用趋势。  相似文献   

11.
基于文本挖掘技术对电影评论进行深层数据分析.爬取电影网站短评,利用TF-IDF进行高频词可视化,对评论进行情感倾向分析.利用贝叶斯分类器将电影短评分为好评集和差评集,得出好评与差评集的主题词概率,找出影评大数据背后隐含的深层信息.  相似文献   

12.
梁丹凝  周书民 《江西科学》2010,28(2):265-268
根据短信可转化为文本的特性,将文本分类算法运用到短信处理技术之中。通过对短信文本进行预处理、特征选择及分类器等步骤,将短信文本按不同领域进行分类,最后分析意见所涉及的领域分类,有针对性地为政府决策提供可靠依据。  相似文献   

13.
软件缺陷(Software Defeat/Bug)对于用户体验影响巨大,针对软件缺陷的快速定位与修复是软件工程领域一项重要研究内容。开源软件构建过程中会产生大量软件相关文本,为结合自然语言处理技术进行软件缺陷定位提供了可能。相关研究主要结合信息抽取工具对软件相关文本进行挖掘,对于文本相关的语义信息考虑较少。文章将预训练语言模型引入软件缺陷报告挖掘研究中以增强软件相关文本的语义理解,在分析开源软件文本特点基础上,提出一种基于预训练自然语言模型的深度文本摘要模型。在Summary DataSet(SDS)、Authorship DataSet(ADS)数据集上进行实验,结果表明本文提出的模型可达到约72%(ADS)准确率,与文本摘要常用基线模型相比有10%以上提升。  相似文献   

14.
为实现“安全第一、预防为主、综合治理”的民航安全管理目标,建立了从报告中学习并评估风险等级的深度学习模型.首先采集航空安全报告系统中10年报告,根据严重度建立事件后果的量化指标,确定5个风险等级:高、中高、中、中低和低风险,并消除事件结果分布不平衡和结果多样性的影响.然后应用卷积神经网络(Convolutional Neural Network,CNN)探索非结构化的事件概要与风险等级之间的关系,通过该模型对事件进行分类,确定风险等级.风险评估模型与不同量化指标和不同方法对比,其分类准确率可达96%,优于其他指标和方法.最后应用该模型对非结构化的事件概要挖掘,对2020年事件进行快速的风险评估,预测准确率可达80%.基于CNN的民航风险评估模型可以对文本格式的事件概要充分挖掘,快速评估与主动感知风险,对支持安全预警具有重要意义.  相似文献   

15.
为了挖掘漏洞内在联系且高效管理漏洞信息,将文本处理和聚类算法应用于漏洞挖掘中.从漏洞库宏观角度出发,提出了一种基于文本挖掘和粒子群优化算法的漏洞信息聚类(PSO-Kmeans)算法.首先,通过文本处理,获取频词空间,用以将漏洞信息描述字段编码化;其次,为了减少局部最优和聚类中心选取不当对聚类结果的影响,利用粒子群优化算法获取全局聚类中心;最后,利用K-means算法实现漏洞信息的聚类,对漏洞信息进行分类别管理,并为预测未知漏洞特征提供参考.实验结果表明,PSO-K-means算法准确率达到90.16%,与K-means算法相比,其平均准确率提高约5%,平均迭代次数减少约45次.所提算法可预测3种未知漏洞的主要类别,是一种有效的漏洞分析方法.  相似文献   

16.
互联网的电商中存在着大量的评论信息,这些带有主观情感色彩的评论信息不仅反应了客户对产品的满意程度,而且暗含了市场产品的流行趋势。针对评论信息中所蕴涵的相关主题词,提出了将文本分类和主题词挖掘相结合的方法。该方法首先使用SVM对情感进行分类,再通过LDA模型进行建模对分类后的评论信息挖掘主题词。真实数据集上的实验结果验证了本文方法的有效性,获得了良好的分类结果,能够准确地挖掘出主题词。  相似文献   

17.
文本挖掘研究进展   总被引:12,自引:0,他引:12  
数据挖掘是将人工智能技术和数据库技术紧密结合,让计算机帮助人们从庞大的数据中智能地、自动地抽取出有价值的知识模式,以满足人们不同应用的需要.由于存储信息最多的自然形式就是文本,因此文本挖掘具有重要的意义.结合笔者研究工作,主要介绍了文本挖掘的研究内容,挖掘过程,挖掘算法及应用前景.  相似文献   

18.
文本挖掘综述   总被引:1,自引:0,他引:1  
杨霞  黄陈英 《科技信息》2009,(33):82-82,99
文本挖掘是对一个非结构化文本信息进行分析从而获取用户关心或感兴趣,有潜在实用价值知识的过程。本文首先介绍了文本挖掘的定义和研究现状,之后文本挖掘一般处理过程,着力于文本分类和文本聚类的一般过程,最后展望了今后的研究目标。  相似文献   

19.
研究从区块链学术文献和区块链社区两个方面,以CiteSpace和Web文本挖掘作为工具,从非结构化文本数据分析入手,梳理2015—2022年国内区块链的学术研究以及协同创新社区两方面的关注热点,以期全方位了解区块链研究的创新知识热点变化趋势,为未来区块链的研究和发展提供借鉴。  相似文献   

20.
本文首先介绍文本挖掘的定义及一般处理过程,重点探讨了文本分类与分类聚类等文本挖掘的关健技术。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号