首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对隐马尔可夫(HMM)词性标注模型状态输出独立同分布等与语言实际特性不够协调的假设,对隐马尔可夫模型进行改进,引入马尔可夫族模型。,该模型用条件独立性假设取代HMM模型的独立性假设。将马尔可夫族模型应用于词性标注,并结合句法分析进行词性标注。用改进的隐马尔可夫模型进行词性标注实验。实验结果表明:与条件独立性假设相比,独立性假设是过强假设,因而基于马尔可夫族模型的语言模型更符合语言等实际物理过程;在相同的测试条件下,马尔可夫族模型明显好于隐马尔可夫模型,词性标注准确率从94.642%提高到97.126%。  相似文献   

2.
为了进一步提高中文语料库中语料的词性标注效率,在分析最大熵模型(MEM)和隐马尔科夫模型(HMM)所涉及理论、算法及其在中文词性标注技术中的应用的基础上,进行了基于MEM和HMM的中文词性标注实验.实验结果显示,基于MEM和HMM的中文词性标注算法都获得了一致性很好且覆盖率较高的标注效果,中文词性标注的准确率、召回率和F1这3个指标均达到92%以上;MEM的标注效果总体上比HMM的稍佳.  相似文献   

3.
为了进一步提高中文语料库中语料的词性标注效率,在分析最大熵模型(MEM)和隐马尔科夫模型(HMM)所涉及理论、算法及其在中文词性标注技术中的应用的基础上,进行了基于MEM和HMM的中文词性标注实验.实验结果显示,基于MEM和HMM的中文词性标注算法都获得了一致性很好且覆盖率较高的标注效果,中文词性标注的准确率、召回率和F1这3个指标均达到92%以上;MEM的标注效果总体上比HMM的稍佳.  相似文献   

4.
基于隐Markov模型的汉语词类自动标注的实验研究   总被引:3,自引:0,他引:3  
汉语词类自动标注技术在中文信息处理现实应用中占据着十分重要的位置。论文在经过人工分词和词类标注的大规模汉语语料库的支持下 ,通过一系列对比实验 ,对基于隐 Markov模型的汉语词类自动标注算法进行了系统的考察 ,并得出结论 :1Bigram模型的“性能价格比”较 Tri-gram模型更令人满意 ;2以 7万词次左右的标注语料库训练 Bigram模型即已基本够用 (此时 ,兼类词词类标注正确率及文本词类标注正确率分别可达 93%和 97%以上 ) ;3Bi-gram模型对不同领域具有一定的适应性。这些结论对设计实用型汉语词类自动标注系统具有指导意义。  相似文献   

5.
语义标注所用标签数目众多,训练数据更为稀疏,用HMM作语义标注面临参数估计不准的难题。不同于传统的解决数据稀疏方法,以《同义词词林》的层次式结构为依据,提出了利用语义层次的提升来改善HMM(hidden Markov model)中参数的估计质量;在算法实现中,采用选择受限策略来解决因语义提升而引起的模型辨别力下降问题。测试表明,在训练数据相对稀疏的情况下,适度调整模型的语义层次可大幅提高语义标注的精度,该方法表现出较好的可塑性。  相似文献   

6.
一个改进的汉语词性标注系统   总被引:5,自引:0,他引:5  
汉语词性标注的难点在于确定具有多个词类的词(兼类词)在上下文中的词性。基于兼类词在词典中仅占很小的比例(约为3%),提出了具有双重状态的隐马尔可夫模型,它不但有一个常规的状态转移概率矩阵,还在逻辑上为每个具有多个词类的词保留一个专有的状态转移概率矩阵,使模型从一个状态转移到另一个状态的概率不再和观察无关,提高了模型的精确性。  相似文献   

7.
合成孔径雷达(SAR)图像中固有的相干斑噪声,严重影响了图像分割算法性能。为了改善SAR图像分割质量,本文提出了一种联合PM扩散模型和各向异性MRF模型的图像分割方法。首先对传统PM扩散模型的扩散系数进行简化和近似,限制模型的解的唯一;然后使用改进后的模型对原始SAR图像进行非线性扩散,在抑制噪声的同时保持图像结构细节;继而,通过在标记场势能函数中引入观测数据灰度信息,将经典的基团势能改进为基于灰度加权的各向异性势能,提高边缘像素和图像奇异点的分割准确率。实验表明,本文算法的分割结果区域连通性更好,边缘轮廓分割更精细。  相似文献   

8.
词性标注是词法分析的基础.HMM是一个数学模型,具有算法成熟、效率高、易于训练的优点;负反馈是一个控制模型,在规则中引入负反馈,可以增强规则的客观性.本文探讨了两个模型,然后将它们应用于词性标注中.实验结果表明两者的结合是有效的和成功的.  相似文献   

9.
提出一种算法,用来高效地完成训练语料的大量工作,并解决好训练语料的扩充问题,然后基于Viterbi算法提出一些改进之策,结合训练语料工作完成后的结果在二元模型基础上,采用不同规模的训练语料对同一规模的测试语料进行测试、比较与分析,并提出模型的改进方向。  相似文献   

10.
为了扩大人工标注数据的规模, 从而提高模型性能, 尝试充分利用已有的异构人工标注数据训练模型参数。将Li等2015年提出的耦合序列标注方法扩展到基于BiLSTM的深度学习框架, 直接在两个异构训练数据上训练参数, 测试阶段则同时预测两个标签序列。在词性标注、分词词性联合标注两个任务上进行大量实验, 结果表明, 与多任务学习方法和传统耦合模型相比, 神经耦合模型在利用词法异构数据方面更优越,在异构数据转化和融合两个场景上都取得更高的性能。  相似文献   

11.
数据清洗中,中文地址类信息对于重复记录的检测起着非常重要的作用。中文地址按照行政归属可划分为五级,通过组建地址信息数据库对中文地址进行匹配,提出基于地址树的中文地址分词技术,构建了中文地址的分词算法流程并设计了算法。  相似文献   

12.
随着信息技术的飞快发展,今天的互联网上信息已成爆炸式增长,文本挖掘技术成为目前研究的热点.文章概述了中文分词的算法,通过介绍歧义存在的种类,分析了分词结果歧义性存在的必然性;在中文分词基础上,提出了一种采用"动词优先"的歧义消除算法,使分词结果最大程度地消除歧义,从而提高了分词的精度,为文本挖掘之后的环节打下了基础.  相似文献   

13.
一种新型汉语单音节识别方法   总被引:1,自引:0,他引:1  
介绍了一种新型字基 VQ/HMM语音识别方法: VQ与 HMM分级识别算法。 使得 VQ部分可用作语音识别的第一级处理, HMM部分作第二级识别。在第一级识别中 可引进汉语的音素知识,使 VQ/HMM性能进一步提高,并可用于大字汇表的实时语音识 别,存贮量、计算量均大大减少。用此方法把汉语四声作一个 HMM模型,使汉语 400 个基本音节的识别率达 96%以上.若加上精确四声识别则可识别汉语的 1200种声音。  相似文献   

14.
切分歧义是影响汉语自动分词系统精度的一个重要因素.时间语词包括指明事件发生确定时间位置的时点时间词和指明动作或状态持续一段时间的时段时间词.基于现代汉语语料库加工规范,特定类型的时间语词存在切分歧义及考察时间语词的语用,提出了基于时间语词上下文词性信息的统计语言模型和基于极大似然原理的消解这类歧义的算法,其开放测试正确率约为90%.  相似文献   

15.
一种高性能英文词性标注器的设计与实现   总被引:3,自引:2,他引:3  
针对统计和规则方法各自的优点和局限,提出运用Viterbi和FTBL(fast transformation-based learning)算法相级联的算法,实现一种英文自动词性标注器.该级联方法以FTBL算法为整体算法,在它的规则学习和最终标注两个阶段,均以Viterbi算法作为其初始化过程.实验结果表明此算法优于其中任何一种单独的算法,达到了98%的高准确率,验证了自然语言处理中统计与规则并举的主流设计思想.  相似文献   

16.
文章设计新的数据结构对网店商品的原始数据进行加工处理,形成一个存储所有商品信息的词条字典。结合全切分算法,实现对用户输入关键词的完全切分,并通过和词条字典的匹配得到所有候选的词条组合。为了消除分词过程中的歧义和不合理的词条组合,系统结合商品类目树的存储结构,通过算法和引入权值计算的方法对词条组合进行排序,得到最佳结果。  相似文献   

17.
针对实际应用中语言模型应该占用更小存储空间且加载速度快等需求,采用最大熵模型进一步研究了汉语词性标注中设定的特征模板集和训练后模型大小、标注精度等指标之间的关系,并在国际汉语分词评测Bake off2007的PKU、NCC、CTB三种语料上进行了对比实验.实验结果表明,双词语组合特征模板大大增加了训练后模型的大小,对汉语词性标注精度却没有提高,而基于单个词语特征模板训练后的模型大小不足原先大小的1/5,标注精度却没有下降.  相似文献   

18.
基于MapReduce的中文词性标注CRF模型并行化训练研究   总被引:1,自引:0,他引:1  
针对条件随机场模型面对大规模数据传统训练算法单机处理性能不高的问题, 提出一种基于MapReduce框架的条件随机场模型训练并行化方法, 设计了条件随机场模型特征提取及参数估计的并行算法, 实现了迭代缩放算法的并行。实验表明, 所提出的并行化方法在保证训练结果正确性的同时, 大大减少了训练时间, 效率得到较大提升。  相似文献   

19.
对细胞膜单离子通道建立隐马氏模型,其中通道潜在的开关状态序列{xt}为马氏链,而膜片钳记录数据{xt}为依赖通道状态的正态分布。用EM算法估计模型中的转移概率以及正态分布的均数与方差等参数,并利用隐马氏模型的性质,用观察到的{Yt}来还原通道潜在的开关状态{Xt}。  相似文献   

20.
基于高斯-马尔可夫随机场模型的运动目标自动分割   总被引:1,自引:0,他引:1  
提出了一种基于高斯 马尔可夫随机场(GMRF:GaussianMarkovRandomField)模型的运动目标自动分割算法.该算法采用有限高斯混合模型描述视频序列帧差图像的概率分布.在此基础上建立马尔可夫随机场模型,构造系统相应的能量函数.然后通过Metroplis优化算法求解能量函数的最优解,得出标记场,提取出运动目标.实验结果证明,该算法对运动目标分割具有很好的分割效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号