排序方式: 共有59条查询结果,搜索用时 343 毫秒
21.
在认知评价理论的基础上,将情境刺激及评价行为映射到多级概念空间中.借助HowNet和同义词林,使用基于模式的上下位关系获取方法,构造了4种情感图式.结合认知语境和语用推理,将其运用于句子级文本情感计算中.实验结果表明:情感图式可以有效地辅助文本情感分析,提高分析准确率. 相似文献
22.
短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Movers Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。 相似文献
23.
将传统的"词袋"思想进行扩展,把文档看成由句子组成的"句袋",通过依存句法分析得到"句袋"与查询中词间的依存关系。利用两者依存关系的匹配程度,计算冗长查询和初次检索返回文档之间的相似度,对初始检索结果进行重排序。通过在TREC标准数据集上的实验,证明该方法能够较有效地解决查询的冗长导致偏离查询主题和低召回率情况下相关文档排序靠后的问题。特别是对于低召回率的情况,检索结果的MAP值和P@N都有显著提高。 相似文献
24.
本文针对当前股票资讯服务中存在的实时性差、个性化缺乏和准确性不足等问题,设计并实现了一个基于资讯价值的股票资讯移动订阅系统。系统应用开源的Lucene和Weblech工具进行垂直搜索获取资讯,根据经济学知识构建个性化股票本体,通过查询扩展、本体匹配生成个性化的RSS种子,依据资讯价值进行排序,在移动端使用KXML进行解析,实现了资讯订阅。实验结果证明,本系统提供的股票资讯服务是有效的。 相似文献
25.
基于特征贡献度的特征选择方法在文本分类中应用 总被引:1,自引:0,他引:1
在目前的文本分类问题中,特征选择方法被认为是提高分类精度和效率的一种有效方法.提出了一种基于特征贡献度FCD(feature contribution degree)的特征选择方法,本方法将某个特征对于类别之间区分能力的贡献度大小作为该特征被选取的条件,特征对于某一类别的FCD值为特征在该类中出现的文档数与在所有类别中出现的文档数的比值.对该方法进行了实验,并与一些常用的特征选择方法进行了比较,实验结果表明该方法具有更好的分类效果. 相似文献
26.
蛋白质关系网络中存在着大量的蛋白质络合物,络合物对有利于深入探索生物细胞的组织原理和功能有着重要意义.然而传统的络合物发现算法多基于网络的拓扑结构,没有融合络合物本身的结构信息.针对这个问题,提出了监督学习的络合物发现方法,将多种能够标示络合物的信息作为特征,使用监督学习方法对样本集进行训练,将训练得到的模型应用在络合物发现算法中.实验证明,该方法能有效地从蛋白质关系网络中发现络合物. 相似文献
27.
立场检测任务的目的是通过分析用户对特定话题发表的评论以判断其对该话题是支持还是反对的,该任务的关键是捕捉文本信息与其对应话题的相关特征。针对目前已有的微博立场检测模型存在仅考虑文本特征,而未结合话题特征,以及忽略了情感信息对微博立场检测的影响而导致分类效果差的问题,文章提出基于卷积注意力的情感增强微博立场检测模型。该模型通过卷积注意力对文本信息和其对应的话题信息提取特征,同时捕捉其相关特征,然后通过情感增强中词语级情感增强获得带有情感信息的词向量表示,将其与相关特征点相乘得到针对话题的情感增强句向量,其次通过拼接句子级情感增强特征以丰富最终的语义表示,最后对该语义表示进行分类。该模型在NLPCC-2016数据集中取得了较好的结果,相对于目前最优模型在五个话题上分别提高了7.9%、5.8%、5.3%、1.3%和5.2%。 相似文献
28.
在自然语言理解领域中,幽默计算逐渐成为重要的研究内容。中文的幽默语言表达千变万化,情景喜剧是一种特殊的幽默表达方式,其含有丰富的幽默表达。为了解决中文幽默计算的问题,本文在图注意力网络的基础上提出一种基于分词消歧以及语义增强的幽默识别算法DISA-SE-GAT,并构建了一个基于《爱情公寓》的幽默情景喜剧数据集。在《我爱我家》幽默数据集以及《爱情公寓》幽默数据集上的实验结果显示,本文提出的多粒度消歧和语义增强模型DISA-SE-GAT在对文本幽默表达的识别问题上表现优异。 相似文献
29.
软件缺陷(Software Defeat/Bug)对于用户体验影响巨大,针对软件缺陷的快速定位与修复是软件工程领域一项重要研究内容。开源软件构建过程中会产生大量软件相关文本,为结合自然语言处理技术进行软件缺陷定位提供了可能。相关研究主要结合信息抽取工具对软件相关文本进行挖掘,对于文本相关的语义信息考虑较少。文章将预训练语言模型引入软件缺陷报告挖掘研究中以增强软件相关文本的语义理解,在分析开源软件文本特点基础上,提出一种基于预训练自然语言模型的深度文本摘要模型。在Summary DataSet(SDS)、Authorship DataSet(ADS)数据集上进行实验,结果表明本文提出的模型可达到约72%(ADS)准确率,与文本摘要常用基线模型相比有10%以上提升。 相似文献
30.
幽默作为一种特殊的语言表达方式,是生活中活跃气氛、化解尴尬的重要元素。随着人工智能的快速发展,如何利用计算机技术识别和生成幽默成为自然语言处理领域热门的研究内容之一,并逐渐形成一个新兴研究领域:幽默计算。幽默计算致力于利用自然语言处理技术理解和识别包含幽默的文本表达,挖掘幽默表达潜在的语义内涵,构建面向幽默表达的计算模型。首先对当前幽默计算的背景进行概述,阐明幽默的可计算性和幽默计算对于人工智能的意义;在此基础上,对幽默研究的发展情况进行回顾,给出幽默研究的语言学基础;然后综述当前幽默计算在幽默识别和幽默生成两个方面的进展情况,分别给出针对幽默识别和幽默生成的计算框架;最后,对幽默计算在聊天机器人、机器翻译、儿童教育软件和外语教学等多个自然语言处理任务中的应用前景和应用模式进行展望。希望通过对幽默计算及其应用研究的总结和概述,完善现有幽默计算模型,增进计算机对于自然语言的理解,推动人工智能的进一步发展。 相似文献