首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
心血管疾病长期以来一直占据着中国疾病死亡率榜首,并且其死亡率仍在逐年上升。在国内开源的中文医学数据集稀缺的背景下,结合自顶向下和自底向上的方法半自动化构建心脏病中文知识图谱。首先,基于高质量百科数据和医学文献构建心脏病本体,为了保证数据的领域封闭性,根据预先定义的疾病词典从百科类网站和医学网站等异构数据源中获取心血管疾病数据;接着,定义实体相似度计算方法进行更好的知识融合,并在图谱数据上通过模式发现寻找最优的数据模式,实现知识图谱模式层和数据层的共同迭代;最后,在图数据库中对图谱数据进行可视化展示,并根据当前研究动态探讨心脏病知识图谱一些具有前景的应用。  相似文献   

2.
从非结构化文本中抽取实体关系是构建知识图谱流程中的重要一环,然而在解决中文文本的关系重叠与实体嵌套问题方面,已有的研究成果却很少,并且领域内基于联合学习的抽取方法大多无法识别实体类型。针对这些问题提出了一种基于指针级联标注策略的中文实体关系联合抽取模型。模型采用以实体类型作为区分的指针标注策略来解决实体嵌套与预测实体类型的问题,并以关系模型作为函数,将句子中的头实体映射到尾实体以解决关系重叠问题。实验结果表明,该模型在两种不同领域的中文数据集上表现突出,F1值分别为81.1%,58.4%。利用此模型抽取的实体关系元组可以直接导入图数据库,极大地简化了从非结构化数据源构建知识图谱的流程。  相似文献   

3.
为解决和缓解甲骨学研究难度大、周期长、知识关联性弱、知识共享程度低等问题。基于多源异构数据源,融合基于文献计量学的科学知识图谱(MKD)和基于知识库的知识图谱(KG),构建了甲骨学融合知识图谱。通过融合两类知识图谱,并基于知识推理进行语义扩展,形成最终的甲骨学知识图谱。其中包含实体148 305个,关系434 032条,可满足甲骨学研究的基本需求。融合MKD和KG两类知识图谱,优势互补,实现甲骨学知识图谱构建,可为其他古籍类知识图谱构建提供借鉴。  相似文献   

4.
新型冠状病毒肺炎(corona virus disease 2019,COVID-19)由于其高传染性和长潜伏期受到世界各地的广泛关注。为了更好地服务医疗问答系统等相关领域,本文结合自顶向下与自底向上两种方式半自动化构建了COVID-19物资知识图谱。首先,根据实际需求讨论确定了物资的主体结构,主要包括医用防护装备、医用防护设施、日常防护用品、医用诊疗设备以及治疗用药五大类,然后通过政府公文、医学网站、百科类网站以及各大电商网站等权威数据细分知识图谱本体层,并添加物资实体,同时,为了使世界各地的研究者们能方便地使用COVID-19物资知识图谱,所有中文都通过机器翻译成了英文并由人工校验。为了保证数据的可靠性,将通过随机采样对知识图谱进行人工审查,准确率为98.73%。最后,通过WebVOWL对COVID-19物资图谱进行可视化展示,并根据前沿科技应用介绍本知识图谱的优秀应用场景。  相似文献   

5.
乳腺癌电子病历承载着丰富的乳腺癌诊断和治疗信息。对这些病历文本进行知识抽取并构建相应的知识图谱,有助于面向乳腺癌诊断的智能化数据分析及辅助决策支持系统的构建。本文以乳腺癌超声检查报告为研究样本,在知识抽取、知识图谱构建和应用开展实例研究。结合乳腺癌诊疗指南和临床专家经验,构建了乳腺癌诊断知识图谱本体及概念层;基于BiLSTM-Attention-CRF模型,开展了针对超声检查报告的知识抽取工作,模型的准确率、召回率及F1值均达到了96%以上;最后,构建知识图谱并开展可视化分析、数据查询、辅助诊断等应用研究。结果表明,所构建的知识图谱在帮助提高电子病历数据质量、提升临床诊疗效果和改善医学决策性能等方面具有较大的应用价值。  相似文献   

6.
面向知识图谱的表示学习在低维语义空间中对实体和关系进行编码,提升了知识理解和推理能力。传统的平移模型在处理知识图谱中的一对多、多对一以及多对多这些复杂关系时,难以区分在某一属性具有相同语义的实体。本文构建了一种基于二值可信向量的平移模型(TransV),通过向量不同维度的元素值控制对应属性的激活与抑制程度,使不同的关系关注不同的实体属性信息,提高模型处理复杂关系的效果。除了知识图谱中的三元组信息,非结构化文本中包含了丰富的语义信息,能够提高实体表达能力。利用与实体相关的文本信息,构建了一种融合上下文信息的基于二值可信向量的知识图谱表示学习模型(CKRV),使得三元组信息与语义信息能相互影响、相互融合。实验结果表明,该方法复杂度更低,在实体预测准确性方面有明显提升。  相似文献   

7.
知识图谱开放灵活、互操作性强,对于表达医学知识具有重要价值,但现有医学知识本体模型存在过于关注概念体系构建、深层次医学知识及关联缺失、无法循证和难以跨病种和学科等不足,为解决以上问题,提出了一种支持全文内容与结构细粒度知识和知识论证与循证关系表示的医药学融合知识表示模型及其推理机制,构建了一个面向高血压专病的医药知识图谱来验证这一方法。结果表明,该模型能全面、一致地表达医药学文献、文档中的细粒度知识,同时支持可循证查询和推理。  相似文献   

8.
概念设计对产品的创新性和研发周期具有决定性的影响,为了提高产品概念设计的效率和水平,提出一种以网络评论和专利数据为核心的产品概念设计知识服务方法.在该方法中,构建了基于网络产品评论数据和专利数据的产品概念设计知识服务模型,应用文本挖掘技术从产品评论数据中挖掘用户需求信息,构建专利技术功效矩阵,挖掘专利的技术和功效信息,进而向设计人员提供用户需求及相应的专利技术方案等设计知识.最后,以多家企业作为实例,验证该方法的有效性.  相似文献   

9.
为用户推荐其感兴趣的新闻内容,已成为了各大互联网新闻平台的首要技术目标。传统的新闻推荐方法主要是基于用户间的相似度或新闻内容间的相似度产生推荐列表。以上两种推荐方法虽然有效,但却忽略了新闻文本中存在的语义信息。知识图谱是一种描述实体以及实体之间链接关系的语义网络,基于知识图谱实现精准推荐是推荐系统目前的研究热点。本文基于知识图谱提出了一种用户兴趣向量的计算方法,在此基础上结合先进的卷积神经网络来构建推荐模型。所提出的基于知识图谱的新闻推荐方法,能借助知识图谱提取新闻文本中的部分语义信息,并将其应用于计算用户的兴趣向量,从而产生较好的符合用户语义的推荐结果。  相似文献   

10.
随着电力计量业务的不断扩展,迫切需要由业务信息、技术知识、行业标准及其内在联系所组成的电力计量知识图谱,为电网的决策和发展提供更为全面有效的支持。命名实体识别是构建知识图谱的基础。针对电力计量领域需要,结合中文分词技术特点,基于联合学习思想,提出了一种基于联合学习的中文电力计量命名实体识别技术。该技术联合CNN-BLSTM-CRF模型与整合词典知识的分词模型,使其共享实体类别和置信度;同时将2个模型的先后计算顺序改为并行计算,减少了识别误差累积。结果表明,在不需要人工构建特征的情况下,方法的正确率、召回率、F值等均显著优于以往方法。  相似文献   

11.
地表覆盖是地理国情监测的重要对象,为地理国情分析评价模型提供了可靠的数据源.高效的地表覆盖数据检索方法是挖掘地表覆盖数据潜在价值的前提.由于地表覆盖数据体量庞大、更新频繁,要素分布密集且不均匀,传统的空间检索方法出现了扩展困难、检索能力不足等问题.提出了一种基于HBase与静态多级格网索引的地表覆盖数据空间检索方法,针对地表覆盖数据特征设计了基于HBase的静态多级格网索引,利用MapReduce实现索引并行构建,通过多级过滤的方式,提高了地表覆盖空间范围的查询效率.实验表明,该方法能快速完成大规模、密集分布的地表覆盖数据的空间索引构建,提升空间检索性能,并具有良好的扩展性,可为其他海量空间矢量数据的检索提供借鉴.  相似文献   

12.
随着网络技术的发展,网上的信息资源越来越丰富,怎样对web上海量的数据信息进行深层次的应用成了数据挖掘技术的研究热点.而XML能够为Web挖掘提供半结构化的数据模型,解决了Web挖掘中的数据源问题.文章通过介绍Web数据挖掘的分类和总体流程,探讨了XML在Web数据挖掘中的应用,进而在此基础之上提出了一种基于XML的Web数据挖掘模型,剖析了该模型的各个组成部分.  相似文献   

13.
基于BERT-BiLSTM-CRF,提出一种先抽取关系和后抽取实体的自动抽取知识模型。其中,关系识别模型的输出是实体识别模型的输入。实验结果表明,该模型可高效抽取《中国民族药辞典》中的实体和关系。利用此模型抽取的中国民族药知识实体和关系构建了知识图谱,并基于此知识图谱实现了中国民族药知识可视化和智能问答。  相似文献   

14.
时序知识图谱的嵌入表示是知识工程领域的研究热点之一,现有的时序嵌入模型大多通过不同的方式将时间信息融入静态嵌入模型中,以此学习实体和关系的时间演化过程,但是难以挖掘和学习细粒度的时序关联信息。因此本文在之前研究的基础上,提出一种在复数空间下上下文时序关联的时序图谱嵌入表示模型,将细粒度时序信息细分为知识开始时间的相关性和知识时间间隔的一致性。设计了一种上下文感知时序关联信息挖掘方法,筛选语义相似的上下文四元组,挖掘训练四元组中包含的时间信息与上下文四元组时序关联信息,增强嵌入模型对于细粒度时序信息的学习。将本文方法与已有的方法在两个公开的时序知识图谱数据集YAGO11k和Wikidata12k上进行了实验。实验结果表明,对于MRR(mean reciprocal rank)和Hits@k(k=1,3,10)指标,本文方法与已有方法相比都有一定的提升。  相似文献   

15.
链接数据为知识图谱的主要表现形式,但目前链接数据的发布缺少统一标准,导致数据质量参差不齐.本文回顾了链接数据质量评价的相关研究,并根据链接数据的发展过程,将衡量数据质量的维度划分为7个类型,分别描述每个数据质量维度的特性.同时,具体介绍了冗余度、可信性的量化评价方法及波动性对链接数据质量的影响.  相似文献   

16.
测试是确保嵌入式操作系统品质及安全性的重要途径,而测试用例是软件测试中的重要角色。针对目前嵌入式操作系统历史用例知识不能充分利用以及传统案例中测试用例复用功能弱的缺陷,提出了一种基于知识图谱的嵌入式操作系统测试用例推荐模型。该方法利用知识图谱在具有复杂关系的数据中存储和检索信息的优势,根据历史测试用例抽取实体和关系,设计本体模型,并创建领域知识图谱;选择无监督对比学习的自然语言处理技术进行实体间的中文文本相似度匹配任务,结合知识推荐建立关于嵌入式操作系统测试用例的复用推荐模型。实验结果表明,本文设计的本体模型能够帮助测试人员有效地复用测试用例,并达到94.305%的覆盖率,极大地节约了测试成本,具有较强的工程应用价值。  相似文献   

17.
随着攻击检测及缓解等安全防护能力的增强,高结构化的文件(如PDF、HTML等)成为当前漏洞利用的主要目标。由于高结构化的文件具有结构复杂、格式多样、自定义规则灵活等特点,恶意样本的模式与规则难以抽取,导致传统基于模式和规则的检测方法难以应对高结构化恶意样本的检测问题。边界值填充、恶意代码嵌入等操作使得恶意样本字节流分布有所改变,依据样本字节流分布差异,本文提出了一种基于深度学习的高结构化恶意样本的检测方法(JLMethod)。该方法使用卷积神经网络对样本文件的字节流特征进行分类,能有效检测出恶意样本。在文档型PDF文件实验中以4. 1‰的漏报率、99. 59%准确率和在非文档型HTML恶意样本(WebShell)检测实验中以8. 5‰的漏报率、98. 89%准确率,验证了本文方法在高结构化恶意样本检测方面的可行性。  相似文献   

18.
针对已有知识树知识热点不突出、知识分类不准确以及结构不断演化等问题,本文面向维基百科的中文数据库"服务计算"领域密集型数据,提出了扩展的中文分词算法,抽取、分类出多种主题知识及其结构化信息,结合服务计算领域文档提出基于LDA改进的DKHM(文档-主题-热点)模型,使用Gibbs抽样算法对数据集采样,并消除原词条歧义分类,以建立演化知识树.实验结果表明:基于DKHM的聚类准确度高于一般的贝叶斯聚类,通过聚类发现的热点与真实热点的匹配度达60%以上,从而验证了演化知识树比维基百科原有知识树结构更合理,热点趋势效果更明显.  相似文献   

19.
以往对产业集群的相关实证研究存在数据获取困难、数据维度片面、传统复杂网络理论分析方法可拓展性差等问题.针对以上问题,本文以互联网上的大量非结构化数据为基础,采用图嵌入模型提取集群网络特征的向量空间分析方法,利用互联网公开数据构建产业集群关联网络,结合企业行业分类标准与分析目的设计部分节点标签,使用关系型图卷积神经网络模型(R-GCNs),从产品关联层面进行产业集群特征学习.根据产业集群内企业的嵌入表示和地理位置信息,提出了集群网络嵌入应用分析方法.通过对宁波地区制造业集群相关数据进行实验分析和论证,验证了图嵌入分析方法在量化分析产业集群关联网络特征上的有效性.  相似文献   

20.
基于多媒体数据库的数据挖掘系统原型   总被引:22,自引:2,他引:20  
提出了一种多媒体数据挖掘的系统原型 MDMP.介绍了 MDMP原型构件和开采函数 ;描述了挖掘处理与知识表示 ,讨论了多媒体数据特征立方体构建及在线分析挖掘 OL AM机制 .MDMP用于从多媒体数据库中挖掘出隐含的用户感兴趣的知识 .  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号