首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
旅游文本大数据以其方便、快捷和低门槛的特点为游客情感计算提供了极大便利,已经成为旅游大数据的主要来源之一。基于大数据理论和情感理论,以文本大数据为数据源,在全面梳理国内外情感计算相关成果的基础上,利用人工智能中的逻辑/算法编程方法、机器学习方法、深度学习方法对旅游文本大数据进行挖掘,探索最佳的基于文本大数据的游客情感计算方法。研究发现:(1)基于情感词典的游客情感计算模型,其核心是构建情感词典和设计情感计算规则,方法简单,容易实现,适用语料范围广。(2)机器学习,用统计学方法抽取文本中的特征项,具有非线性特征,可靠性较线性特征的情感词典方法高。(3)基于深度学习技术的游客情感计算,效果良好,准确率在85%以上。训练多领域的文本语料易于移植,实用性强,且泛化能力好,较适合大数据时代游客情感计算研究。  相似文献   

2.
旅游文本大数据以其方便、快捷和低门槛的特点为游客情感计算提供了极大便利,已经成为旅游大数据的主要来源之一。基于大数据理论和情感理论,以文本大数据为数据源,在全面梳理国内外情感计算相关成果的基础上,利用人工智能中的逻辑/算法编程方法、机器学习方法、深度学习方法对旅游文本大数据进行挖掘,探索最佳的基于文本大数据的游客情感计算方法。研究发现:(1)基于情感词典的游客情感计算模型,其核心是构建情感词典和设计情感计算规则,方法简单,容易实现,适用语料范围广。(2)机器学习,用统计学方法抽取文本中的特征项,具有非线性特征,可靠性较线性特征的情感词典方法高。(3)基于深度学习技术的游客情感计算,效果良好,准确率在85%以上。训练多领域的文本语料易于移植,实用性强,且泛化能力好,较适合大数据时代游客情感计算研究。  相似文献   

3.
根据新浪财经股票博客的特点,使用点互信息(PMI)方法构建了股票情感词典,在所构建的股票情感词典和现有的台湾大学情感词典基础上,结合经典贝叶斯方法对新浪财经博客的情感分析进行研究,并且在中文分词、自然语言处理(NLP)技术的基础上研究文本句法结构对股票博客文本情感分类结果的影响.实验结果表明:考虑文本中的句法细节以后,如词语搭配、否定词和连词等,使用PMI股票情感词典+贝叶斯方法,宏平均准确率从60.19%提高到80.50%,宏平均召回率从原来的59.35%提高到78.70%,宏平均F1值也由59.77%达到了79.60%.  相似文献   

4.
基于情感文本分析技术对股票研究报告中的投资建议进行分类.提取股票研究报告中的"组合特征";采用改进的卡方统计方法进行特征提取,并通过支持向量机(SVM)和朴素贝叶斯算法进行分类,验证分类效果;探讨了权重计算、特征维度和样本数量对分类效果的影响.基于东方财富网上采集的14 000篇股票研究报告的实验表明,通过提取"组合特征"、部分特征维度以及对训练样本重采样,可以取得较好的分类效果.  相似文献   

5.
文本情绪原因识别是情感分析中一个新的研究方向,旨在从文本中自动检测出导致某一情绪产生的原因。针对循环神经网络在长文中出现的长期依赖问题,本文提出了一种基于注意力机制和双向长短时记忆(attention model and bi-directional long short-term memory,AM-BiLSTM)神经网络模型的情绪原因识别方法。该方法采用字符向量表示文本语义信息,使用BiLSTM模型提取文本特征,该过程结合了人工提取的子句特征,在训练模型时,引入了注意力机制来优化模型性能,使用softmax对子句进行分类。实验结果表明本文方法对情绪原因的识别是有效的。  相似文献   

6.
为了提高文本情感倾向性分类的精度,提出了一种文本情感倾向性分析方法 bfsmPMI-SVM.该方法在文本预处理阶段,滤除了对表述主题情感倾向性不强烈的语句以及无关停用词等;用改进的PMI-IR算法对情感倾向性词语抽取,并自动扩充了正负基准词集;改进了互信息(MI)算法,在MI的计算中增加了词频因子(f)、类别差异因子(b)和符号因子(s).利用改进的MI算法选择文本特征,融合其他一些文本特征,用SVM实现文本情感倾向性分类.实验以食品安全领域爬取文本为例,与PMI-IR-SVM和MI-SVM算法的倾向分析相比,本文方法的正向文本准确率、负向文本准确率、召回率和F1值等都有提高.  相似文献   

7.
针对体育领域情感分析资源不足、分析性能不高的现状,对体育领域的情感分析开展了研究.首先从"新浪体育"和"直播吧"等平台经过人工筛选、标注,构建了中文情感标注语料库CH-SPORT,共标记评论10 000条,其中积极评论5 000条,消极评论5 000条.然后选用了SVM、TextCNN、BiLSTM、RCNN、fastText、BiLSTM+Attention等模型对CH-SPORT进行了评估.实验结果表明,BiLSTM+Attention模型在CH-SPORT上的分类效果最佳,Acc为87.75%,比基准数据集ChnSentiCorp和NLPCC2014分别高出18.65%、11.75%.本文构建的数据集能有效应用于体育情感分析研究中.  相似文献   

8.
介绍了在线社交网络挖掘产生的背景以及不同学科领域研究的侧重点,并对在线社交网络挖掘所涉及的用户分类、社区发现、观点挖掘、情感分析、信息传播、社会化推荐以及可视化分析等代表性研究话题的现状进行了详细论述,重点归纳了每一个话题所涉及的关键问题和代表性解决方法.分析和讨论了在线社交网络的迅速发展给在线社交网络挖掘领域所带来的新问题和新挑战,最后指出了该领域的发展前景.  相似文献   

9.
针对口语对话系统领域分类任务中传统领域分类方法如SVM需要进行大量人工标注的问题,将LDA(Latent Dirichlet Allocation)模型应用于口语对话系统领域分类;针对口语对话内容少、长度短、数据稀疏等问题,在LDA模型基础上提出了基于词嵌入文本扩充的口语对话系统领域分类方法.该方法主要特点是:1)使用词嵌入方法word2vec对类似于短文本的语音识别后的口语对话文本进行语义扩充,将短文本转化为长文本,使主题模型LDA更加有效地估计口语对话文本的隐含主题;2)采用无监督的概率生成模型LDA对扩充后的口语对话文本进行建模以及领域分类,从而降低人工标注成本.实验结果表明,与直接使用LDA模型进行口语对话系统领域分类方法对比,适当扩充长度的word2vec文本扩充方法在口语对话系统领域分类中的平均准确率、平均召回率和平均F1值分别提高了26.1%、25.5%、27.2%,且该方法具有一定的鲁棒性..  相似文献   

10.
目前主流答案选择算法主要首先基于word2vec/glove进行词语表示,再使用RNN或CNN提取文本语义特征,但word2vec/glove无法解决一词多义问题,RNN和CNN在文本全局特征提取方面也有局限。针对以上不足,论文提出一种基于BERT预训练模型的答案选择算法BERT-LSTM,首先采用BERT模型提取问答文本的语义特征表示,再利用BiLSTM加强文本序列信息并整合文本语义,最后引入注意力机制突出重点信息,以此完成答案选择任务。在答案选择基准数据集InsuranceQA和WiKiQA上的测试验证了所提出算法的有效性。  相似文献   

11.
多媒体文本数据的模式挖掘方法   总被引:5,自引:0,他引:5  
给出了多媒体文本数据挖掘(MTM)的定义和分类,提出了多媒体文本数据挖掘过程模型(MTMM)及其特征表示,讨论了多媒体文本类挖掘方法,MTM与Web挖掘的区别与联系,以期发现有用的知识或模式,促进MTM的发展和应用。  相似文献   

12.
英汉双语文本中的情绪可以通过英语和汉语的单语或者双语形式来表达。然而,以往的研究主要集中在单语文本的情绪分析,只有少数研究侧重于英汉双语文本。为提高英汉双语文本情绪预测效果,本文结合情绪词典方法与深度学习方法,使用联合特征与Bi-LSTM模型来对英汉双语文本进行情绪预测。首先基于情绪词典抽取出双语文本中包含的情绪词特征,然后联合情绪词特征与双语文本特征输入至Bi-LSTM模型进行特征学习,最后将学习到的深度语义特征输入到分类器中进行情绪预测。实验结果表明,该方法对英汉双语文本的情绪预测有良好的效果。  相似文献   

13.
双语语料库的自动对齐已成为机器翻译研究中一个十分重要的研究课题.目前的句子对齐方法有基于长度的方法和基于词汇的方法,本文根据汉文-维吾尔文的特点,在分析目前双语句子对齐方法的基础上,提出了基于译文的对齐方法,通过使用一部翻译较完整的词典作为桥梁,将汉维句子关联起来.根据维吾尔语文本中的单词,在词典中找到其对应的译文,并将译文到汉语句子中去匹配,根据评价函数和动态规划算法找到对齐句对.  相似文献   

14.
概念设计对产品的创新性和研发周期具有决定性的影响,为了提高产品概念设计的效率和水平,提出一种以网络评论和专利数据为核心的产品概念设计知识服务方法.在该方法中,构建了基于网络产品评论数据和专利数据的产品概念设计知识服务模型,应用文本挖掘技术从产品评论数据中挖掘用户需求信息,构建专利技术功效矩阵,挖掘专利的技术和功效信息,进而向设计人员提供用户需求及相应的专利技术方案等设计知识.最后,以多家企业作为实例,验证该方法的有效性.  相似文献   

15.
领域分类结构的抽取已成为本体工程和本体学习的关键部分,提出一种新的分类结构学习算法,将Web作为知识获取的语料库,运用迭代方法抽取相关语言学模式,再利用语言学模式抽取分类结构,并采用改进的互信息方法对结果进行评价和过滤,最后通过实验对该分类学习算法的性能进行评价.实验表明:算法具有良好的跨领域性,在准确率和召回率方面也有改善.  相似文献   

16.
近年来,文本方面级的细粒度情感分析受到了越来越多的重视,并且在医疗文本方面的作用也越来越大。与粗粒度情感分析相比,细粒度情感分析可以区分医疗文本的每个具体方面词,并且可以得到每个方面词所表达的情感信息。方面级情感分析任务需要考虑方面词和情感词之间的交互,而医疗文本既可作为方面词,又可作为情感词。因此,提出了一个包含上下文位置潜在信息的方面级情感分析模型,实现对于医疗文本信息的情感分析。医疗文本中与特定方面词情感极性判断相关的上下文词一般位于该方面词的附近,而且由于医疗方面词的上下文的词数量存在差异,可能会导致词嵌入向量表示的属性变化,使得方面词的相对位置会有所不同。因此,提出了一种新的上下文位置调整函数,通过调整上下文词在不同位置的权重,增强与指定方面词相关的情感极性词的针对性,减轻方面词两侧词数差异对情感极性判断的干扰。同时,为了将包含特定方面的情感信息的方面词以向量表示,引入了一个线性条件随机场模型辅助建立方面词向量表示的模型。最终,使用焦点损失函数来训练模型参数,处理医疗文本中的情感分析的类不平衡问题。  相似文献   

17.
以德国Rossmann商场的数据为例,通过对数据的探索性分析,以相关背景业务知识体系为基础,通过可视化分析,提取隐含在数据里的特征,使用性能较优的Xgboost方法进行规则挖掘,取得较好效果。为进一步提高Xgboost方法的预测精度和泛化性能,论文结合特征工程,采用集成学习方法,利用GLMNET和Xgboost模型拟合残差,结合LM、TSLM在趋势和季节性预测的优点,提出一种基于Xgboost的优化组合模型用以对行业数据进行预测,通过实验验证了该组合模型具有较好的精度和泛化能力。  相似文献   

18.
针对已有知识树知识热点不突出、知识分类不准确以及结构不断演化等问题,本文面向维基百科的中文数据库"服务计算"领域密集型数据,提出了扩展的中文分词算法,抽取、分类出多种主题知识及其结构化信息,结合服务计算领域文档提出基于LDA改进的DKHM(文档-主题-热点)模型,使用Gibbs抽样算法对数据集采样,并消除原词条歧义分类,以建立演化知识树.实验结果表明:基于DKHM的聚类准确度高于一般的贝叶斯聚类,通过聚类发现的热点与真实热点的匹配度达60%以上,从而验证了演化知识树比维基百科原有知识树结构更合理,热点趋势效果更明显.  相似文献   

19.
随着信息技术的普及与推广,双语电子文本资源呈指数形式增长,这给构建大规模双语语料库提供了可能.双语对齐作为语料库加工过程中的关键技术,已经引起研究者的高度重视.针对目前可收集到的双语资源大都没有做到段落对齐,本文提出了基于回车符段落对齐基础上的多层次分段对齐思想,充分利用汉文-维吾尔文双语文本中的语言特点,根据双语文本中的数字信息,找出互为译文的句对,从而达到高质量的段落对齐目的.  相似文献   

20.
本文介绍了维文在存储和文档特征项抽取方面与中、英文的不同之处,在维文文档的特征项抽取、加权、相似度计算、模型的建立等方面做了一些探讨,提出了一种基于网络的维文信息处理(如:维文网页下载、网页内容信息的存储、以及无词典智能化维文抽词)的方法.文中论述了算法的设计思想和相关的实现技术.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号