首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
维吾尔语句子边界识别算法的设计与实现   总被引:2,自引:0,他引:2  
本文分析维吾尔语的句子结束形式,研究维吾尔语句子边界规则,给出了句子划分思路,并实现了维吾尔语句子边界识别算法及程序.在对大量手工划分句子语料进行统计测试结果表明,该句子边界识别程序准确率超过98.7%.维吾尔语句子边界识别的研究对实现维吾尔语词性标注系统、维吾尔语句法分析器、机器翻译等众多领域有着很高的实际意义.  相似文献   

2.
本文研讨缺乏语言资源的民族语言(如维吾尔语)中如何引用语音技术、开发应用系统问题.提出基于GMM-UBM混合SVM技术方法实现实用性说话人识别系统,通过小语料人工标注语音语料预选高精度声学根(seed)模型、再引导大语料训练生成鲁棒性声模提高连续语音识别精度实现汉民会话语音翻译系统.对维吾尔语70人发话电话语音识别实验结果显示,基于GMM-UBM -SVM方法的不特定说话人识别实验其正确识别率为94.3%,比先行GMM-UBM方法精度提升3%;基于seed声模HTK-Julius技术的维吾尔语连续语音识别实验,其识别率为72.5%,比直接使用语音文本对齐语料单靠HTK实现识别方法(63.2%)精度提高9.3%;同时本研究讨论基于Moses技术的汉维医院门诊会话语音翻译系统预测Blue值达到了57.7%.  相似文献   

3.
指代消解的基本任务是识别篇章中对现实世界同一实体的不同表达.由于消解不同实体表达是自然语言理解的关键因素之一,因此许多学者在该领域做了大量的研究工作.本文将指代消解领域的经典算法综述为两大类:①基于启发式语言学规则的指代消解方法;②基于数据驱动的指代消解方法.在过去的几十年里,由于标注语料MUC,ACE和OntoNotes的出现,指代消解系统从基于启发性规则的消解方法转向基于数据驱动的消解方法.然而最近两年出现一个比较有趣的现象,只要能获取足够多的表达信息,基于启发性规则的方法也能取得很好的消解效果,基于启发性规则的方法又有兴起的趋势.随着指代消解研究的发展,它在其余自然语言处理技术中得到了广泛的应用,例如:机器翻译、信息抽取和自动文摘等领域.计算模型不精确、篇章知识匮乏以及缺少标注语料是限制指代消解发展的主要因素.未来,候选消解项的识别与抽取、跨文本指代消解、多语言的指代消解和各种深层篇章知识的联合利用将成为指代消解发展趋势.  相似文献   

4.
新词识别是影响搜索准确率以及速率的重要因素.本文提出了一种基于统计模型和词语搭配的中文新词自动识别方法.采用条件概率的方法提取单字词搭配特征和临界词特征,并采用层次结构实现新词定位以及识别.首先采用双向最大匹配相结合的方法对文本进行词法粗切分,然后根据单字词搭配得到候选新词的位置,用临界词方法确定候选新词的边界,采用改进Nagao串频统计方法对新词候选词在本文内进行重复串统计,对于只在文中出现一次的新词则借助搜索引擎进行确定.对新浪网近期的网络文章进行测试,结果表明,基于本文方法设计的系统可以识别不同领域的新词,在低频词、较长的词以及新词语搭配方面取得了良好的效果.单字词搭配检查发现新词位置综合指标F值达到96.8%.  相似文献   

5.
原子事件抽取是将非结构化文本进行结构化表示的重要方法.针对新闻语料,本文提出了一种基于信息单元融合的原子事件抽取方法.在中文分词、词性标注、命名实体识别等自然语言处理技术的基础上,利用语言规则将信息单元标识出来并进行融合,达到浅层句法分析的效果,通过原子事件抽取算法将原子事件从经信息单元融合后的语料中抽取出来.基于信息单元融合的原子事件抽取方法不仅对文本长度没有严格限制,并且不受事件类型的约束;实验结果表明,基于信息单元融合的原子事件抽取方法是有效的.  相似文献   

6.
在维吾尔语语音识别研究工作中,由于语音标注工作量大、精度要求高,人工标注之后不可避免的存在各种错误,因此通过专门的复查软件来检查已标注过的文件并修改错误是必不可少的。对已标注的语音文件进行复查操作在语音识别研究中具有十分重要的作用,本文介绍了维吾尔语语音标注复查软件的必要性及基本原理,复查软件的功能及其实现过程的一些技术。  相似文献   

7.
针对新词识别过程中出现大量噪声词和伪新词的问题,提出一种基于生存法则模型的稳定新词识别方法.该方法借鉴自然法则和遗忘定律,分析候选词串在时序分布中的词频变化,通过词串在语言环境中表现的综合竞争力淘汰突发性特征的噪声词以及词义不稳定的伪新词,识别网络短文本中出现的稳定新词.该方法可以保证网络新词的新颖性和稳定性,可为舆情本体新概念的抽取提供基础支持,有助于提高舆情本体概念抽取的准确率和查全率.  相似文献   

8.
针对图文微博中图像、文本和社交数据的异构性,在提取图像、文本和社交等多模态特征的基础上,本文提出了面向微博图文关系识别的统一特征空间映射方法.该方法首先选择图像特征空间为统一特征空间,然后基于遗传算法求解映射矩阵,将文本特征和社交特征映射至统一特征空间,最后利用支持向量机在统一特征空间中建立图文关系识别模型.采用统一特征空间映射方法前后的对比实验结果表明,在总正确率上,面向微博图文关系识别的统一特征空间映射方法是有效的.  相似文献   

9.
语音语料库是语音识别和语音合成技术研究的基础.由于维吾尔语文字与语音特征、维吾尔语语音语料库的建立、管理、使用之工作不仅工作量巨大,且具有一定的复杂性,这就不得不开发维吾尔语语音数据库管理软件.本文首先研究维吾尔语语音语料库的设计过程,包括语音文本的设计、语音录制、语音库的标注、并在此基础上论述维吾尔语语音语料管理软件的总体功能设计以及部分关键技术的实现方法.  相似文献   

10.
提出了一种面向服务的语义互操作能力度量的方法.该方法采用概念树对Web服务的输入、输出数据进行语义标注,明确该数据概念的外延.根据数据概念外延的关系,将面向服务的语义互操作分为完全语义互操作、部分语义互操作和无语义互操作三个层次,并提出了计算语义互操作能力的方法,将该方法运用于Web服务组合参数传递时的语义合法性的判断.最后,设计了面向服务的语义互操作能力评价系统实现框架.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号