首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
原子事件抽取是将非结构化文本进行结构化表示的重要方法.针对新闻语料,本文提出了一种基于信息单元融合的原子事件抽取方法.在中文分词、词性标注、命名实体识别等自然语言处理技术的基础上,利用语言规则将信息单元标识出来并进行融合,达到浅层句法分析的效果,通过原子事件抽取算法将原子事件从经信息单元融合后的语料中抽取出来.基于信息单元融合的原子事件抽取方法不仅对文本长度没有严格限制,并且不受事件类型的约束;实验结果表明,基于信息单元融合的原子事件抽取方法是有效的.  相似文献   

2.
实体抽取在自然语言处理领域中已经相当成熟;随着电子医疗文本急剧增加,医疗实体抽取在医疗领域的应用越来越受到关注.然而,针对医疗领域的专业术语,通用实体抽取方法普遍存在准确率不高的问题.针对药品说明书中的疾病、症状和致病菌,本文采用语言规则的方法,对其进行抽取并评价其准确性.首先,根据已有的术语表分词、词性标注并进行实体抽取;其次,根据语言规则识别医疗实体,从而提高实体抽取的准确率.实验结果显示各类医疗实体抽取的准确率可达80%以上.  相似文献   

3.
维吾尔语句子边界识别算法的设计与实现   总被引:2,自引:0,他引:2  
本文分析维吾尔语的句子结束形式,研究维吾尔语句子边界规则,给出了句子划分思路,并实现了维吾尔语句子边界识别算法及程序.在对大量手工划分句子语料进行统计测试结果表明,该句子边界识别程序准确率超过98.7%.维吾尔语句子边界识别的研究对实现维吾尔语词性标注系统、维吾尔语句法分析器、机器翻译等众多领域有着很高的实际意义.  相似文献   

4.
中文实体间的数值型关系抽取有着广泛的应用前景,目前常用的实体关系抽取一般采用有监督抽取方法,且多用于短文本和简单句,并不适合处理海量复杂句.针对来自于网络的大量复杂文本,本文提出了一种中文实体数值型关系的无监督抽取方法.在中文分词、词性标注等自然语言处理结果的基础上,首先经过句式分析并采用选择树算法构建候选集,接着利用Jaro-Winkler距离进行候选集筛选,最后抽取得到数值型三元组关系.本文在钢铁、船舶、房地产3个行业的数据上进行了实验,结果表明,该方法抽取中文实体数值型关系是有效的.  相似文献   

5.
为了从多源异构的复杂土地基础数据中快速准确地提取用户所需信息,提出了基于元数据的一体化管理检索方法.在元数据信息提取、元数据加权索引、实体同义词扩展检索3个环节中,结合土地领域专业知识和用户实际需求,设计和开发了共享元数据表结构、加权元数据中字段相对重要性和信息熵因子,构建地名实体和专题数据层实体同义词库,并集成到包括中文分词、实体识别、同义词扩展、索引检索和相似度计算的一体化管理检索框架中,解决了多源异构土地基础数据统一管理和精确检索的问题.实践表明,该方法较传统的通用信息检索方法具有更好的适用性和更高的准确率.  相似文献   

6.
旅游文本大数据以其方便、快捷和低门槛的特点为游客情感计算提供了极大便利,已经成为旅游大数据的主要来源之一。基于大数据理论和情感理论,以文本大数据为数据源,在全面梳理国内外情感计算相关成果的基础上,利用人工智能中的逻辑/算法编程方法、机器学习方法、深度学习方法对旅游文本大数据进行挖掘,探索最佳的基于文本大数据的游客情感计算方法。研究发现:(1)基于情感词典的游客情感计算模型,其核心是构建情感词典和设计情感计算规则,方法简单,容易实现,适用语料范围广。(2)机器学习,用统计学方法抽取文本中的特征项,具有非线性特征,可靠性较线性特征的情感词典方法高。(3)基于深度学习技术的游客情感计算,效果良好,准确率在85%以上。训练多领域的文本语料易于移植,实用性强,且泛化能力好,较适合大数据时代游客情感计算研究。  相似文献   

7.
旅游文本大数据以其方便、快捷和低门槛的特点为游客情感计算提供了极大便利,已经成为旅游大数据的主要来源之一。基于大数据理论和情感理论,以文本大数据为数据源,在全面梳理国内外情感计算相关成果的基础上,利用人工智能中的逻辑/算法编程方法、机器学习方法、深度学习方法对旅游文本大数据进行挖掘,探索最佳的基于文本大数据的游客情感计算方法。研究发现:(1)基于情感词典的游客情感计算模型,其核心是构建情感词典和设计情感计算规则,方法简单,容易实现,适用语料范围广。(2)机器学习,用统计学方法抽取文本中的特征项,具有非线性特征,可靠性较线性特征的情感词典方法高。(3)基于深度学习技术的游客情感计算,效果良好,准确率在85%以上。训练多领域的文本语料易于移植,实用性强,且泛化能力好,较适合大数据时代游客情感计算研究。  相似文献   

8.
随着电力计量业务的不断扩展,迫切需要由业务信息、技术知识、行业标准及其内在联系所组成的电力计量知识图谱,为电网的决策和发展提供更为全面有效的支持。命名实体识别是构建知识图谱的基础。针对电力计量领域需要,结合中文分词技术特点,基于联合学习思想,提出了一种基于联合学习的中文电力计量命名实体识别技术。该技术联合CNN-BLSTM-CRF模型与整合词典知识的分词模型,使其共享实体类别和置信度;同时将2个模型的先后计算顺序改为并行计算,减少了识别误差累积。结果表明,在不需要人工构建特征的情况下,方法的正确率、召回率、F值等均显著优于以往方法。  相似文献   

9.
本文研讨缺乏语言资源的民族语言(如维吾尔语)中如何引用语音技术、开发应用系统问题.提出基于GMM-UBM混合SVM技术方法实现实用性说话人识别系统,通过小语料人工标注语音语料预选高精度声学根(seed)模型、再引导大语料训练生成鲁棒性声模提高连续语音识别精度实现汉民会话语音翻译系统.对维吾尔语70人发话电话语音识别实验结果显示,基于GMM-UBM -SVM方法的不特定说话人识别实验其正确识别率为94.3%,比先行GMM-UBM方法精度提升3%;基于seed声模HTK-Julius技术的维吾尔语连续语音识别实验,其识别率为72.5%,比直接使用语音文本对齐语料单靠HTK实现识别方法(63.2%)精度提高9.3%;同时本研究讨论基于Moses技术的汉维医院门诊会话语音翻译系统预测Blue值达到了57.7%.  相似文献   

10.
知识图谱可以为智能问答和自动推荐等系统提供良好的数据支持.针对国内现有学科知识图谱构建数据来源单一等问题,提出一种多源异构数据融合的方法构建初中数学知识图谱.基于领域知识和学习者需求构建初中数学本体,确定概念、方法、公式、定理四种类型的实体;从教材等权威数据源和百度百科、互动百科等网络数据源中获取非结构化与半结构化数据...  相似文献   

11.
面向知识图谱的表示学习在低维语义空间中对实体和关系进行编码,提升了知识理解和推理能力。传统的平移模型在处理知识图谱中的一对多、多对一以及多对多这些复杂关系时,难以区分在某一属性具有相同语义的实体。本文构建了一种基于二值可信向量的平移模型(TransV),通过向量不同维度的元素值控制对应属性的激活与抑制程度,使不同的关系关注不同的实体属性信息,提高模型处理复杂关系的效果。除了知识图谱中的三元组信息,非结构化文本中包含了丰富的语义信息,能够提高实体表达能力。利用与实体相关的文本信息,构建了一种融合上下文信息的基于二值可信向量的知识图谱表示学习模型(CKRV),使得三元组信息与语义信息能相互影响、相互融合。实验结果表明,该方法复杂度更低,在实体预测准确性方面有明显提升。  相似文献   

12.
测试是确保嵌入式操作系统品质及安全性的重要途径,而测试用例是软件测试中的重要角色。针对目前嵌入式操作系统历史用例知识不能充分利用以及传统案例中测试用例复用功能弱的缺陷,提出了一种基于知识图谱的嵌入式操作系统测试用例推荐模型。该方法利用知识图谱在具有复杂关系的数据中存储和检索信息的优势,根据历史测试用例抽取实体和关系,设计本体模型,并创建领域知识图谱;选择无监督对比学习的自然语言处理技术进行实体间的中文文本相似度匹配任务,结合知识推荐建立关于嵌入式操作系统测试用例的复用推荐模型。实验结果表明,本文设计的本体模型能够帮助测试人员有效地复用测试用例,并达到94.305%的覆盖率,极大地节约了测试成本,具有较强的工程应用价值。  相似文献   

13.
面对舆情信息的动态性、跨领域性、面向主题等特点,目前已有的领域本体学习方法难以适应舆情本体知识的自动构建.本文采用信息爬取技术收集热点舆情文本信息,根据构建模型自动识别主题进行归类,并对识别后的主题文本提取名词性词汇或者短语作为候选概念集;采用语义相似度方法计算候选概念间的相关度,根据相关度计算各概念的权值,并进行排序;结合词频变化的方法抽取与主题相关的核心概念.实验结果表明,本文方法可有效地抽取与舆情主题相关的核心概念,对舆情本体的构建以及后期的知识共享和重用起到积极作用.  相似文献   

14.
语音语料库是语音识别和语音合成技术研究的基础.由于维吾尔语文字与语音特征、维吾尔语语音语料库的建立、管理、使用之工作不仅工作量巨大,且具有一定的复杂性,这就不得不开发维吾尔语语音数据库管理软件.本文首先研究维吾尔语语音语料库的设计过程,包括语音文本的设计、语音录制、语音库的标注、并在此基础上论述维吾尔语语音语料管理软件的总体功能设计以及部分关键技术的实现方法.  相似文献   

15.
针对已有知识树知识热点不突出、知识分类不准确以及结构不断演化等问题,本文面向维基百科的中文数据库"服务计算"领域密集型数据,提出了扩展的中文分词算法,抽取、分类出多种主题知识及其结构化信息,结合服务计算领域文档提出基于LDA改进的DKHM(文档-主题-热点)模型,使用Gibbs抽样算法对数据集采样,并消除原词条歧义分类,以建立演化知识树.实验结果表明:基于DKHM的聚类准确度高于一般的贝叶斯聚类,通过聚类发现的热点与真实热点的匹配度达60%以上,从而验证了演化知识树比维基百科原有知识树结构更合理,热点趋势效果更明显.  相似文献   

16.
每个程序元素都在一定程度上刻画了特定领域的高层概念。通过将程序与特定领域本体所表述的知识进行映射,可以将本体概念附加到相应的代码片段上,从而丰富代码的语义信息,为软件维护中的程序理解和逆向工程等活动提供支持。提出了一种基于领域本体的代码语义标注方法,并基于一个开源软件项目对方法的有效性进行了初步的评价。  相似文献   

17.
双语短语对抽取是基于短语的统计机器翻译中短语翻译模型训练的关键步骤,但由于汉维平行语料库规模有限,数据稀疏问题严重.本文提出了一种改进的短语抽取算法,该算法首先考虑词对齐矩阵中一个汉语词对齐到多个维吾尔语词的情况(包括不连续),然后利用Och方法抽取短语对,最后考虑维吾尔语SOV语序结构特点,抽取双语短语.实验表明,该算法能够较准确地且尽可能多地抽取汉维短语对,从而提高翻译模型的质量.  相似文献   

18.
面对稀缺、专业性强的汉维双语医疗平行语料库建设,本文探索数据采集、标准化、去噪、自动录入方法,进行语料库特征分析,并根据语料数据特性,设计语料库网页检索系统.目前已建成110多万字、2.6万句汉语医疗语料和3 000句对汉维双语对齐语料,不仅对构建中小型语料库有参考价值,而且奠定了医疗自然语言处理研究基础,尤其汉维双语对齐语料,将促进机器翻译技术在医疗领域突破,对新疆边远地区无汉语表达能力的少数民族群众获得医疗救助搭建桥梁.  相似文献   

19.
针对新词识别过程中出现大量噪声词和伪新词的问题,提出一种基于生存法则模型的稳定新词识别方法.该方法借鉴自然法则和遗忘定律,分析候选词串在时序分布中的词频变化,通过词串在语言环境中表现的综合竞争力淘汰突发性特征的噪声词以及词义不稳定的伪新词,识别网络短文本中出现的稳定新词.该方法可以保证网络新词的新颖性和稳定性,可为舆情本体新概念的抽取提供基础支持,有助于提高舆情本体概念抽取的准确率和查全率.  相似文献   

20.
为用户推荐其感兴趣的新闻内容,已成为了各大互联网新闻平台的首要技术目标。传统的新闻推荐方法主要是基于用户间的相似度或新闻内容间的相似度产生推荐列表。以上两种推荐方法虽然有效,但却忽略了新闻文本中存在的语义信息。知识图谱是一种描述实体以及实体之间链接关系的语义网络,基于知识图谱实现精准推荐是推荐系统目前的研究热点。本文基于知识图谱提出了一种用户兴趣向量的计算方法,在此基础上结合先进的卷积神经网络来构建推荐模型。所提出的基于知识图谱的新闻推荐方法,能借助知识图谱提取新闻文本中的部分语义信息,并将其应用于计算用户的兴趣向量,从而产生较好的符合用户语义的推荐结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号