首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
基于相邻词的中文关键词自动抽取   总被引:2,自引:0,他引:2  
文档关键词概括了文档的主题和内容,在信息检索、文本分类、文本聚类等领域有着重要应用.在总结前人研究成果的基础上,提出了一种基于相邻词的中文关键词自动抽取算法.在对50篇学术论文自动抽取关键词的实验中,采用精确匹配的评价获得了38.9%的精度和34.9%的召回率,采用近似匹配的评价获得了70.7%的精度和68.8%的召回率,能够为进一步的研究提供帮助.  相似文献   

2.
文本分类是根据文本内容自动确定文本类型的过程。介绍现有特征抽取和分类算法,提出用模糊聚类算法FCM确定文本类标签,Boosting算法构造分类器的方法,使文本分类具有更好的分类精度和时效性,以及对未知类标签语料库中文本的自适应性。  相似文献   

3.
随着互联网的快速发展,信息也呈爆炸式增长,如何从海量的文本信息中获取所需的信息成为当今一门重要的课题.检索、分类、抽取等文本信息处理技术取得了长足发展,但面向人物属性的自动信息提取却没有引起人们的重视.基于规则的人物信息抽取算法,首先对需要抽取的信息进行规则描述,重点是时间、地点、籍贯等信息.在规则的基础上,研究开发人物信息抽取系统,最终实现了半结构化人物属性信息的自动提取.  相似文献   

4.
实现铁路行业海量的铁路科技信息资源有效地组织管理并提供智能化、专业化的检索和服务,已经成为科研人员迫切期望解决的问题.关键词自动抽取技术是实现信息的智能检索和标引分类的核心技术,本文提出了一种改进TextRank的关键词抽取算法应用于铁路文献关键词的抽取,该算法融合多个特征因素改进词汇节点的初始权重设置,并利用Word2Vec训练的词向量表征改进词节点间的转移概率.实验结果表明:本文所提出的关键词抽取算法相对于经典的TextRank和TF-IDF算法在准确率,召回率以及F值上都有较大的提升.与TextRank相比,F值提升了13.9%.  相似文献   

5.
主成份和最小成份抽取的新算法   总被引:1,自引:0,他引:1  
给出了用于主成份分析和最小成份分析的神经网络学习算法,两者之间仅差一个符导,即刻生成份分析算法经改变符号后又是一个最小成份分析算法,两算法不仅能计算主成份空间和最小成份空间,而且学习所得的子空间以及主向量/最小向量的左奇异向量,数值模拟证实了算法是有效的。  相似文献   

6.
提出了一种将监督学习和半监督学习融合的方法,并用于从文献中自动抽取蛋白质关系.在AImed语料上的实验得到63.2%的F值,这表明该方法达到目前较好的性能.  相似文献   

7.
通过研究抽取算法的本质和抽取算法之间的关系,对抽取算法的互补性进行分析,提出了一种多算法组合验证机制,该机制能检测出抽取算法的错误,并通过结合动态阈值调整的方法,提高抽取算法的抽取准确率.  相似文献   

8.
分析了传统互联网科技情报获取方式的缺点,介绍了自动获取与智能分析平台的功能结构,包括互联网科技情报的自动获取与清洗、情报数据的存储与索引、情报数据的智能分析,阐述了自动获取与智能分析平台的技术路线。该平台受益面广,将极大地增强我国企业的科技情报获取与分析能力。  相似文献   

9.
基于云模型的自学习进化算法   总被引:4,自引:0,他引:4  
结合进化论和遗传理论的最新进展,提出基于学习算子的自学习进化算法;并将正态云模型引入进化过程中,提出云学习算子和基于云学习算子的自学习进化算法.最后的仿真实验表明,该算法具有精度高、收敛速度快等优点,能在很大程度上解决了现存进化算法的低效问题.  相似文献   

10.
实体关系抽取作为文本挖掘和信息抽取的核心任务,是知识图谱构建过程中的关键一环。然而人工建立大规模有标签的数据耗时耗力。使用小样本学习来进行关系抽取,仅仅需要少量样本实例就能使模型学会区分不同关系类型的能力,从而缓解大量无标签数据带来的标注压力。本文对中文关系抽取数据集FinRE进行了重构使之适用于少样本学习,并引入了语义关系网络HowNet对实体进行更为精确的语义划分,并在此基础上使用双重注意力机制提高句子编码质量,从而提高了模型在面对噪声数据时的效能,减轻了长尾关系的影响。使用本文的方法在该中文数据集进行了评估,与原始原型网络相比,基于句子级别与实体级别的注意力机制的原型网络在抽取准确率上提升了1%~2%的性能。  相似文献   

11.
关键词提取是问答系统中问句分析的重要步骤,它有助于问答系统快速、准确地返回答案。针对现有文献中基于T FIDF等方法在关键词提取准确率及效率方面的不足,提出一种基于平均信息熵的中文问句关键词提取方法。通过加入专业领域词汇,并在停用词过滤的基础上计算问句中每个词的平均信息熵,以词的信息熵值直接体现该词在问句中的重要性;同时在关键词提取过程中,通过设定不同提取比例,并在不同提取比例下观察评价标准值,以最佳提取比例获取更为合适的关键词。实验结果表明,与传统的T FIDF等其他方法相比,该方法的查准率、查全率以及 F1测度值都得到显著提高。  相似文献   

12.
介绍了一种按照TrueType字库格式对手写汉字提取字形轮廓的算法,包括手写汉字轮廓数据的获取、轮廓的有序化以及轮廓字形特征点的提取等主要步骤.实验表明,该算法效果良好,提取出的字形轮廓可以写入Windows集外字TrueType字库,自动生成TrueType字模.  相似文献   

13.
关键词在自然语言处理的各个领域有着十分重要的意义.对于中文自然语言处理,一词多义和多词一义问题始终是困扰研究人员的一个重大难题.传统的一些基于统计的方法,诸如KEA只是机械地统计了词频,而没有考虑词之间的关系.文中提出了一种基于同义词的中文关键词提取方法SKEA,并建立一阶隐马尔可夫模型进行词义消歧,将文本从稀疏的词空间映射到语义空间,从而实现了文本的降维.同时改进了KEA的位置权重公式,并提出新的关键词特征选取项.最后对SKEA方法和KEA方法进行比较实验,证明SKEA是一种更优秀的中文关键词提取方法.  相似文献   

14.
随着因特网技术的发展和广泛采用,电子商务逐渐形成并运用。电子商务使得商务交易过程更加快捷、高效、低成本,是一种全新的商务模式。为使这种全新的商务模式健康成长,须有相应的法律保驾护航,培养相应的运作人才。  相似文献   

15.
特征是物体匹配和识别的依据.为提高图形图像的识别率,对曲线的特征提取进行了探索,提出了一种基于曲线相对高度的特征提取算法.算法可大致描述如下:利用曲线的高分割曲线,再分别计算各段曲线的相对高度,不断重复前面两个操作,直至相对高度满足小于某个给定的常数.对于每一个相对高度,按照分割曲线的层次存储在二叉树相应的节点.实验结果表明,该算法能够满足曲线在平移、旋转、缩放和对称变换后,其特征不变,而且具有良好的灵敏度.该算法可用于手写汉字和人脸轮廓的识别.  相似文献   

16.
通过定义二值图像像素顶点的链码,构造像素顶点矩阵,给出了一个基于像素顶点的线性的图像区域边界追踪和链码树结构的生成算法,算法在追踪和抽取区域边界的顶点链码的同时生成区域边界的链码树结构.算法复杂度是线性的,且适用于任意复杂图像区域.  相似文献   

17.
提出了一种从树木点云中提取树干点云的切平面分割算法.首先,在对树木点云分段与角度分区的基础上,选定树干下部无树枝且扭曲程度较小的一段树干作为开始分段;其次,根据已削枝的多个相邻分段中的当前角度分区,及与其前后各1个角度分区的点云,构建当前角度分区的切平面,由点与切平面的位置关系,分割当前分段中这些角度分区中的树干点云;最后,以落叶时地面三维激光扫描仪扫描的13棵杨树作为测试数据的实验表明,提取算法在有效提取树干点云的同时保留了树干表面的特征,为后续树干点云的相关研究提供基础数据.  相似文献   

18.
文章阐明古琴艺术的数字化应从元数据方案设计、古琴乐谱的编码方案设计、TrueType字库设计、软音源设计、乐谱识别和古琴艺术的音乐活动等6个方面进行.提出和分析了乐谱识别中谱字提取的包围盒算法,选取古琴乐谱"广陵散"为样本图像,实验结果表明,数据处理量可较传统的区域标记算法降低12.5%.  相似文献   

19.
为提高搜索效率,将遗传算法应用于图像分形压缩,对定义域块的位置和旋转进行二进制编码,并根据群体多样性原则自适应调整控制参数,快速地找到最优解,提高图像压缩质量.基于该方法完成的数值试验证明了它的有效性。  相似文献   

20.
印刷文档中表格字符的自动提取算法   总被引:4,自引:0,他引:4  
在简要分析表格结构的基础上,提出了一种利用变尺度连通 特征提取表格字符的方法.为此,给出了连通区域搜索算法,定义了用于区分表格与图形的 行程位置转化函数.并介绍了实验的情况.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号