首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
原子事件抽取是将非结构化文本进行结构化表示的重要方法.针对新闻语料,本文提出了一种基于信息单元融合的原子事件抽取方法.在中文分词、词性标注、命名实体识别等自然语言处理技术的基础上,利用语言规则将信息单元标识出来并进行融合,达到浅层句法分析的效果,通过原子事件抽取算法将原子事件从经信息单元融合后的语料中抽取出来.基于信息单元融合的原子事件抽取方法不仅对文本长度没有严格限制,并且不受事件类型的约束;实验结果表明,基于信息单元融合的原子事件抽取方法是有效的.  相似文献   

2.
指代消解的基本任务是识别篇章中对现实世界同一实体的不同表达.由于消解不同实体表达是自然语言理解的关键因素之一,因此许多学者在该领域做了大量的研究工作.本文将指代消解领域的经典算法综述为两大类:①基于启发式语言学规则的指代消解方法;②基于数据驱动的指代消解方法.在过去的几十年里,由于标注语料MUC,ACE和OntoNotes的出现,指代消解系统从基于启发性规则的消解方法转向基于数据驱动的消解方法.然而最近两年出现一个比较有趣的现象,只要能获取足够多的表达信息,基于启发性规则的方法也能取得很好的消解效果,基于启发性规则的方法又有兴起的趋势.随着指代消解研究的发展,它在其余自然语言处理技术中得到了广泛的应用,例如:机器翻译、信息抽取和自动文摘等领域.计算模型不精确、篇章知识匮乏以及缺少标注语料是限制指代消解发展的主要因素.未来,候选消解项的识别与抽取、跨文本指代消解、多语言的指代消解和各种深层篇章知识的联合利用将成为指代消解发展趋势.  相似文献   

3.
中文实体间的数值型关系抽取有着广泛的应用前景,目前常用的实体关系抽取一般采用有监督抽取方法,且多用于短文本和简单句,并不适合处理海量复杂句.针对来自于网络的大量复杂文本,本文提出了一种中文实体数值型关系的无监督抽取方法.在中文分词、词性标注等自然语言处理结果的基础上,首先经过句式分析并采用选择树算法构建候选集,接着利用Jaro-Winkler距离进行候选集筛选,最后抽取得到数值型三元组关系.本文在钢铁、船舶、房地产3个行业的数据上进行了实验,结果表明,该方法抽取中文实体数值型关系是有效的.  相似文献   

4.
领域分类结构的抽取已成为本体工程和本体学习的关键部分,提出一种新的分类结构学习算法,将Web作为知识获取的语料库,运用迭代方法抽取相关语言学模式,再利用语言学模式抽取分类结构,并采用改进的互信息方法对结果进行评价和过滤,最后通过实验对该分类学习算法的性能进行评价.实验表明:算法具有良好的跨领域性,在准确率和召回率方面也有改善.  相似文献   

5.
本文主要介绍基于规则的维吾尔语、哈萨克语机器翻译的设计与实现过程:(1)根据这两种语言之间的对应关系,构建了其词尾映射库、翻译规则库;(2)对源语言维吾尔语进行形态分析后,根据映射库和翻译规则,初步实现了基于规则的维吾尔语、哈萨克语机器翻译系统.在收集的维哈对齐的语料上做了实验,实验结果BLEU值为0.2,表明本文采取的方法是可行的.  相似文献   

6.
研究了临床指南事件及事件关系的提取,提出了基于句法分析的事件信息抽取方法.通过分析临床指南语料库,总结出临床指南事件及关系模型;将临床指南数据进行句法分析,根据事件触发词来匹配事件与事件关系模型;将抽取出的事件信息进行优化处理,得到最终结果.通过具体临床指南数据对方法进行评估,获得了较好的准确率与召回率,验证了该方法的可行性与有效性.  相似文献   

7.
针对新词识别过程中出现大量噪声词和伪新词的问题,提出一种基于生存法则模型的稳定新词识别方法.该方法借鉴自然法则和遗忘定律,分析候选词串在时序分布中的词频变化,通过词串在语言环境中表现的综合竞争力淘汰突发性特征的噪声词以及词义不稳定的伪新词,识别网络短文本中出现的稳定新词.该方法可以保证网络新词的新颖性和稳定性,可为舆情本体新概念的抽取提供基础支持,有助于提高舆情本体概念抽取的准确率和查全率.  相似文献   

8.
面对舆情信息的动态性、跨领域性、面向主题等特点,目前已有的领域本体学习方法难以适应舆情本体知识的自动构建.本文采用信息爬取技术收集热点舆情文本信息,根据构建模型自动识别主题进行归类,并对识别后的主题文本提取名词性词汇或者短语作为候选概念集;采用语义相似度方法计算候选概念间的相关度,根据相关度计算各概念的权值,并进行排序;结合词频变化的方法抽取与主题相关的核心概念.实验结果表明,本文方法可有效地抽取与舆情主题相关的核心概念,对舆情本体的构建以及后期的知识共享和重用起到积极作用.  相似文献   

9.
为了从多源异构的复杂土地基础数据中快速准确地提取用户所需信息,提出了基于元数据的一体化管理检索方法.在元数据信息提取、元数据加权索引、实体同义词扩展检索3个环节中,结合土地领域专业知识和用户实际需求,设计和开发了共享元数据表结构、加权元数据中字段相对重要性和信息熵因子,构建地名实体和专题数据层实体同义词库,并集成到包括中文分词、实体识别、同义词扩展、索引检索和相似度计算的一体化管理检索框架中,解决了多源异构土地基础数据统一管理和精确检索的问题.实践表明,该方法较传统的通用信息检索方法具有更好的适用性和更高的准确率.  相似文献   

10.
利用语言学专家人工标注的语料库对维吾尔文动词进行研究,并总结出了维吾尔文动词范畴的连接规则框架.在人工标注的实例库的基础上,收集了词缀连接规则集合,经人工纠正构建了词缀连接规则库集合.最终,结合人工标注实例库、词缀连接规则库及维吾尔文动词范畴的连接规则框架提出了维吾尔文动词词干提取方法,该方法的独立实验准确率达到了84.15%.  相似文献   

11.
随着攻击检测及缓解等安全防护能力的增强,高结构化的文件(如PDF、HTML等)成为当前漏洞利用的主要目标。由于高结构化的文件具有结构复杂、格式多样、自定义规则灵活等特点,恶意样本的模式与规则难以抽取,导致传统基于模式和规则的检测方法难以应对高结构化恶意样本的检测问题。边界值填充、恶意代码嵌入等操作使得恶意样本字节流分布有所改变,依据样本字节流分布差异,本文提出了一种基于深度学习的高结构化恶意样本的检测方法(JLMethod)。该方法使用卷积神经网络对样本文件的字节流特征进行分类,能有效检测出恶意样本。在文档型PDF文件实验中以4. 1‰的漏报率、99. 59%准确率和在非文档型HTML恶意样本(WebShell)检测实验中以8. 5‰的漏报率、98. 89%准确率,验证了本文方法在高结构化恶意样本检测方面的可行性。  相似文献   

12.
维吾尔语句子边界识别算法的设计与实现   总被引:2,自引:0,他引:2  
本文分析维吾尔语的句子结束形式,研究维吾尔语句子边界规则,给出了句子划分思路,并实现了维吾尔语句子边界识别算法及程序.在对大量手工划分句子语料进行统计测试结果表明,该句子边界识别程序准确率超过98.7%.维吾尔语句子边界识别的研究对实现维吾尔语词性标注系统、维吾尔语句法分析器、机器翻译等众多领域有着很高的实际意义.  相似文献   

13.
新型冠状病毒肺炎(corona virus disease 2019,COVID-19)由于其高传染性和长潜伏期受到世界各地的广泛关注。为了更好地服务医疗问答系统等相关领域,本文结合自顶向下与自底向上两种方式半自动化构建了COVID-19物资知识图谱。首先,根据实际需求讨论确定了物资的主体结构,主要包括医用防护装备、医用防护设施、日常防护用品、医用诊疗设备以及治疗用药五大类,然后通过政府公文、医学网站、百科类网站以及各大电商网站等权威数据细分知识图谱本体层,并添加物资实体,同时,为了使世界各地的研究者们能方便地使用COVID-19物资知识图谱,所有中文都通过机器翻译成了英文并由人工校验。为了保证数据的可靠性,将通过随机采样对知识图谱进行人工审查,准确率为98.73%。最后,通过WebVOWL对COVID-19物资图谱进行可视化展示,并根据前沿科技应用介绍本知识图谱的优秀应用场景。  相似文献   

14.
为了提高文本情感倾向性分类的精度,提出了一种文本情感倾向性分析方法 bfsmPMI-SVM.该方法在文本预处理阶段,滤除了对表述主题情感倾向性不强烈的语句以及无关停用词等;用改进的PMI-IR算法对情感倾向性词语抽取,并自动扩充了正负基准词集;改进了互信息(MI)算法,在MI的计算中增加了词频因子(f)、类别差异因子(b)和符号因子(s).利用改进的MI算法选择文本特征,融合其他一些文本特征,用SVM实现文本情感倾向性分类.实验以食品安全领域爬取文本为例,与PMI-IR-SVM和MI-SVM算法的倾向分析相比,本文方法的正向文本准确率、负向文本准确率、召回率和F1值等都有提高.  相似文献   

15.
针对属性值为区间对偶犹豫模糊语言变量的多属性决策问题,提出了一种基于区间对偶犹豫模糊语言变量Frank算子的多属性决策方法。首先,给出了区间对偶犹豫模糊语言变量的运算规则,提出了改进的区间对偶犹豫模糊集的得分函数、精确函数;其次,结合Frank-T范数和Frank-S范数,定义了区间对偶犹豫模糊语言变量Frank集结算子及其运算规则;最后,结合实际顾客需求问题,以VR在线购房为实例,将顾客需求的自然语言描述转化为区间对偶犹豫模糊语言,并运用区间对偶犹豫模糊Frank算子对顾客需求进行排序,验证了该方法的可行性和有效性。  相似文献   

16.
针对计算机网络故障诊断知识库冗余性高、神经网络与PCA、DS证据等理论相结合诊断精度不高的难题, 提出了一种新的基于粗糙集和BP神经网络的计算机网络故障诊断模型. 首先利用粗糙集算法对网络故障特征进行约简处理、提取最小诊断规则; 其次利用最小规则训练BP神经网络, 建立基于粗糙集和BP神经网络的计算机网络故障诊断模型; 最后将模型运用于真实网络故障数据诊断. 结果表明: 该模型具有学习效率高、诊断速度快、准确率高的特点, 能够快速诊断网络故障类型.  相似文献   

17.
本文采用统计和规则相结合的混合策略,提出一种维吾尔人名的自动识别方法.该方法利用知识库中的统计信息,对维吾尔人名做初步的提取,分析维吾尔人名构成的各类特征,提取特征集,总结相应的识别规则,对候选人名进行识别,并消除歧义.在此基础上构建了维吾尔人名识别系统,并对系统进行了封闭和开放测试,实验结果表明,封闭测试的准确率达到88.47%,召回率达到85.1%.  相似文献   

18.
面对稀缺、专业性强的汉维双语医疗平行语料库建设,本文探索数据采集、标准化、去噪、自动录入方法,进行语料库特征分析,并根据语料数据特性,设计语料库网页检索系统.目前已建成110多万字、2.6万句汉语医疗语料和3 000句对汉维双语对齐语料,不仅对构建中小型语料库有参考价值,而且奠定了医疗自然语言处理研究基础,尤其汉维双语对齐语料,将促进机器翻译技术在医疗领域突破,对新疆边远地区无汉语表达能力的少数民族群众获得医疗救助搭建桥梁.  相似文献   

19.
针对传统恶意软件采用图像分类方法准确率不高、抗混淆能力弱、模型训练收敛慢的缺点,本文对恶意软件图像表示方法进行改进,将恶意软件、字节Bigram、Lst文件转化成3种灰度图像,将3种灰度图像组合成三通道彩色图像进行分类,并将图像分类效果好的EfficientNet模型用于恶意软件图像分类.结合迁移学习领域中的微调技术将...  相似文献   

20.
针对空间金字塔匹配模型缺乏对图像中视觉物体旋转、平移和缩放的考虑问题,提出了一种基于特征点群相似度计算模型的图像表示方法.基于词汇树模型的粗匹配结果,通过特征点群拓扑、方向、距离等计算其相似度,并以此作为评价指标对匹配结果进行过滤;根据由特征点群计算所得的标准差椭圆的圆心、旋转角度对金字塔匹配的图像划分子区域并进行调整,从而得到图像抗旋转、平移和缩放的表示.分别在自建校园建筑物数据集和自建物体图像数据集上对方法进行了验证和比较,结果表明,该方法提高了分类识别的准确率和检索的查全率,特别是对于包含明显旋转、平移和缩放变化的图像数据效果更好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号