排序方式: 共有32条查询结果,搜索用时 31 毫秒
11.
基于连接文法的双语E-Chunk获取方法 总被引:2,自引:0,他引:2
提出了一种面向机器翻译领域的扩展Chunk概念·EChunk是在Chunk概念基础上基于语义惟一性的一种扩展形式,其具体形态表现为具有无歧义性、复现性、可嵌套性、内部结构句法自足性的无歧义机器可翻译单元·讨论了使用连接文法的连接因子进行英语EChunk的识别技术和双语EChunk获取方法·双语EChunk库的建立必将为基于Chunk的机器翻译技术提供极大的支持· 相似文献
12.
针对汉语句际关系中分布最广泛的并列复句, 提出一种自动识别的方法。通过对句子语义相似度和结构相似度的计算, 使用基于词义的句子相似度计算、最大公共子串、最大谓词周边匹配长度、加重特定词语复现等方法, 在广义并列关系上进行评测。最后将其中3种方法进行集成, 并取得了较为理想的效果。 相似文献
13.
14.
根据话题跟踪的定义和特点,分析了K最近邻(KNN)算法和支持向量机(SVM)算法的优缺点,发现它们的优缺点具有互补的可能性,提出了KNN和SVM并行结合的算法作为话题跟踪算法,设计了话题跟踪实验,实验结果证明了新算法作为话题跟踪算法,考虑了话题跟踪的特点,利用了KNN算法和SVM算法的理论优势而避免了理论的缺陷,处理话题跟踪问题时具有很好的话题跟踪效果. 相似文献
15.
在专利技术功效矩阵构建研究中,专利技术功效短语获取是矩阵构建的基础,也是构建矩阵的词汇来源。专利技术功效短语获取的准确性直接影响专利技术功效矩阵构建的效果。为了提高专利技术功效短语的准确性,基于汽车新能源专利文献文本数据基础上,综合考虑专利文献结构、专利文献线索词,以及专利文献的句法、语法分析等多种因素,提出了基于规则和统计相结合的专利技术功效短语获取方法。首先,根据专利摘要文本定位包含专利技术功效短语的单句,提取技术功效目标句;其次,在改进的分词方法和词性标注的基础上,针对包含功效短语的句子,结合依存关系规则、短语规则计算出共现频率较高的词,并提取技术功效短语。利用该方法获取专利技术功效短语,其准确率可到达85%。实验证明该方法在获取专利技术功效短语中是有效的、可行的,进而整体上提高专利技术功效短语的识别效果。 相似文献
16.
句子相似模型和最相似句子查找算法 总被引:25,自引:0,他引:25
提出一种句子相似模型,用以度量句子的相似程度·句子相似度由词形相似度和词序相似度决定,词形相似度起主要作用,词序相似度起次要作用·该模型可保证当一个句子的分句或短语整体发生长距离移动后,仍与原来的句子很相似·提出一种基于单词倒排索引和句子长度索引的最相似句子查找算法·实验结果表明该查找算法不仅高效,而且平均查找时间受语料库规模影响很小· 相似文献
17.
总结了英文光学字符识别 (OCR)系统中的常见错误类型 ,论证了使用拼写检查技术发现错误的可能性 .以最相似单词替换OCR的错误输出 ,从而达到改正错误的目的 .利用编辑距离实现词汇相似性评估 ,并用动态规划技术优化了编辑距离的计算 .试验结果证明该方法可以使OCR系统的单词识别率提高 6 2 5 % . 相似文献
18.
基于大规模语料的新词语识别方法 总被引:3,自引:0,他引:3
根据新词语的不同特征,提出了一整套自动检测新词语的方法,通过大规模地统计分析,分别建立字,词,N元组的词典,从中自动检测出新词语来,然后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出语料中的新词语. 根据此方案实现的系统,可以抽取不限长度不限领域的新词语. 相似文献
19.
针对武器装备领域复杂实体的特点, 提出一种融合多特征后挂载武器装备领域知识的复杂命名实体识别方法。首先, 使用BERT 模型对武器装备领域数据进行预训练, 得到数据向量, 使用Word2Vec模型学习郑码、五笔、拼音和笔画的上下位特征, 获取特征向量。然后, 将数据向量与特征向量融合, 利用Bi-LSTM模型进行编码, 使用CRF解码得到标签序列。最后, 基于武器装备领域知识, 对标签序列进行复杂实体的触发检测, 完成复杂命名实体识别。使用环球军事网数据作为语料进行实验, 分析不同的特征组合、不同神经网络模型下的识别效果, 并提出适用于评价复杂命名实体识别结果的计算方法。实验结果表明, 提出的挂载领域知识且融合多特征的武器装备复杂命名实体识别方法的F1值达到95.37%, 优于现有方法。 相似文献
20.
在分析不同类型体育赛事报道特点的基础上, 首次提出一种以实时数据作为数据源的足球赛事战报自动写作方法。该方法利用历史战报, 对实时数据进行自动标注, 得到训练集, 使用卷积神经网络(CNN)对标注后的实时数据进行建模, 自动识别实时数据中的关键事件, 将关键事件中结构化的信息生成战报风格的自然语言。实验表明, 与其他方法相比, 该方法写作效果更好, 内容更加详实, 可以很方便地扩展到其他赛事的自动写作。 相似文献