首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
关键词确认是语音识别中一个重要的研究方向。对于关键词确认系统来讲,废料模型的结构和类型对整个系统的性能有很大的影响。文中提出了一种基于音节格的废料模型。实验表明,与传统的基于音素类的废料模型相比,关键词确认率有了很大的提高。  相似文献   

2.
基于同义词词林的中文文本主题词提取   总被引:3,自引:0,他引:3  
中文文本主题词的提取可以浓缩一篇文章,可以提炼一个中文网页,还可以帮助实现网上广告与网页的精确匹配。提出了一种基于同义词词林的中文文本主题词提取方法,不仅考虑了传统的影响主题词语权重的因素,还考虑到了同义词、相关词以及下位词的出现对于词语权重的影响。实验表明,用该方法对中文文本  相似文献   

3.
页没有提供关键词,人工标注关键词代价巨大,并且大多数已有的关键词自动提取算法都需要建立在人工标注的训练集之上,因而难以实用.由于关键词是文章中较重要且主题关联较凝聚的词的集合,因此提出一种基于密度聚类模式的中文新闻网页关键词提取方法,根据词语之间的共现信息,对网页分词后的词语进行聚类,在分析词语关联度的基础上提取出反映新闻主题的关键词.通过大量随机新闻网页实验结果表明,与单纯的TF/IDF(词频和文档频率倒数的乘积)方法相比,此算法召回率平均提高了7.15N,准确率平均提高了7.075%.  相似文献   

4.
张文鹏 《科学技术与工程》2012,12(21):5192-5197
针对当下在公共社会领域中突发事件应急预案结构复杂、难以为决策者进行信息筛选、整合的热点问题,设计了一种基于中文关键词提取的预案智能匹配方案。该方案从预案的框架存储方式出发,分析了中文关键词的特征值与关键词权重调节因子的训练方法,并建立矢量空间模型来实现预案间的智能匹配。实验结果表明在预案智能匹配方案中运用此种中文关键字提取算法相比于传统tf*idf算法效果更佳。  相似文献   

5.
基于离散HMM的非特定人关键词提取语音识别系统   总被引:2,自引:0,他引:2  
设计了一个基于离散隐含马尔可夫整词模型的非特定人汉语小词表关键词提取语音识 别系统, 提出一种基于对前向、 后向搜索得到的关键词假设做二次识别的置信度策略. 将 该置信度用于关键词提取系统的说话验证, 得到了良好效果.  相似文献   

6.
一种改进的基于同义词替换的中文文本信息隐藏方法   总被引:2,自引:0,他引:2  
通过深入分析当前针对中文的基于同义词替换的自然语言信息隐藏算法,发现由于存在大量不完全可替换的同义词词组,经过同义词替换后可能会破坏句子的语义一致性,针对这一缺点,提出了一种改进的基于同义词替换的中文文本信息隐藏算法,该算法利用知网对同义词词组进行分类,对于不完全可替换的同义词词组,通过依存句法分析来获取同义词的上下文搭配词语,根据搭配词语判断是否进行替换,实验结果表明,该算法能有效地排除错误的同义词替换,替换的准确率达到89.1%。  相似文献   

7.
针对关键词发音相似易混淆及反词模型难确定、难训练等问题,提出一种结合模糊理论的方法,利用模糊C均值聚类算法对候选关键词进行2次聚类,同时将新的聚类中心作为反词模型进行最后确认.实验结果表明,这种方法使识别率得到了显著的提高.  相似文献   

8.
一个改进的汉语词性标注系统   总被引:5,自引:0,他引:5  
汉语词性标注的难点在于确定具有多个词类的词(兼类词)在上下文中的词性。基于兼类词在词典中仅占很小的比例(约为3%),提出了具有双重状态的隐马尔可夫模型,它不但有一个常规的状态转移概率矩阵,还在逻辑上为每个具有多个词类的词保留一个专有的状态转移概率矩阵,使模型从一个状态转移到另一个状态的概率不再和观察无关,提高了模型的精确性。  相似文献   

9.
一种基于同义词词典的模糊查询扩展方法   总被引:2,自引:0,他引:2  
在信息检索系统中,查询扩展是一种非常有效的改进检索性能的方法. 为此,提出一种基于同义词词典的模糊查询扩展方法. 该方法中的同义词词典是基于著名的语义词典WordNet中的同义词集合建立的,同义词之间的贴近度[0, 1]使用Tanimoto系数获得. 利用该词典,能够进行较好的查询扩展. 将该方法与向量空间模型结合应用于文本信息检索系统中,所构造的检索模型相当于一种简单的语义模型,并且可以根据阈值来控制查询扩展的程度. 所得试验结果表明,使用该查询扩展方法的信息检索系统较常规信息检索系统的检索性能有一定改善.  相似文献   

10.
语义标注所用标签数目众多,训练数据更为稀疏,用HMM作语义标注面临参数估计不准的难题。不同于传统的解决数据稀疏方法,以《同义词词林》的层次式结构为依据,提出了利用语义层次的提升来改善HMM(hidden Markov model)中参数的估计质量;在算法实现中,采用选择受限策略来解决因语义提升而引起的模型辨别力下降问题。测试表明,在训练数据相对稀疏的情况下,适度调整模型的语义层次可大幅提高语义标注的精度,该方法表现出较好的可塑性。  相似文献   

11.
多策略同义词获取方法研究   总被引:1,自引:0,他引:1  
提出一种多策略同义词获取方法, 一方面利用《同义词词林》、《中文概念词典》等现有语义词典中蕴含的同义关系获取同义词, 另一方面根据百度百科信息框(Bdbk)中特征词和汉典网(Zdic)中HTML标记获取同义词, 同时采用DIPRE自动获取模式的方法, 从百度百科文本中发现置信度较高的模式和同义关系。实验结果表明, 所提方法在NLP&CC 2012同义词评测数据集中取得较好结果。利用该方法, 以《现代汉语语法信息词典》名词部分为目标, 构建一部同义词词典并进行人工校对, 为《现代汉语语法信息词典》构建较为完善的语义关系体系做出尝试。  相似文献   

12.
中文信息自动抽取   总被引:16,自引:0,他引:16  
论述了信息抽取与信息检索的区别,信息抽取与深入的自然语言处理的区别,中文信息自动抽取的目的、任务和基本模型;然后介绍了一些国外的IE系统;讨论了关于中文信息自动抽取的一些问题和正在开展的中文信息抽取研究工作。  相似文献   

13.
以全文索引为基础的网页搜索引擎检索相关度偏低。针对这一问题,本文提出了一种基于查询日志分析的中文网页关键词抽取方法。该方法利用用户对网页与查询词的相关性判断来选择关键词。为了量化用户的相关性判断,提出了单位篇幅停留时间、逆向点击率、排名补偿因子3个指标,并对其进行综合加权。在查询串分词、同义词识别及多义词消歧、关键短语组配方面,也做了特殊处理。实验结果表明:抽取关键词的准确率较高,综合性能也高于TF.IDF和SVM方法。该方法能得到较满意的关键词抽取效果。  相似文献   

14.
基于语义的汉语文献主题词提取算法研究   总被引:10,自引:0,他引:10  
为了适应信息时代的迅速发展,提高从汉语文献中自动提取主题词的准确率,给出一种基于语义理解的汉语文献主题词自动提取算法模型.该模型以中文文本为处理对象,结合领域背景,构建概念语义网络作为分词词典和知识库,用概念之间的联系和匹配取代传统的字面匹配,克服了仅局限于表面形式的缺陷;把自然语言处理从目前基于关键词层面提高到基于知识的层面,从而在概念层次上理解文献主题,突破了传统的关键词匹配的局限,在一定程度上解决了词汇差异问题.该方法能对自然语言进行某种程度的语义理解,利用领域知识来实现主题词的规范标引.实验表明,采用本方法对测试文档进行主题词提取的准确率可达到71.03%,与传统方法相比提高了近1.87倍.  相似文献   

15.
对只能获得部分标记的训练文本,将主动学习方法应用到文本信息抽取中,提出了一种基于主动学习隐马尔可夫模型的文本信息抽取方法.在该方法中,通过主动学习,仅将对隐马尔可夫模型的训练最有价值的训练文本挑选出来进行标记.实验表明,通过选择模型信任值的最佳门槛值,该方法在保证文本信息抽取性能的前提下,大大减少了用户标记训练文本的工作量.  相似文献   

16.
典型隐马尔可夫模型对初始参数非常敏感,采用随机参数训练隐马尔可夫模型时常陷入局部最优,应用于W eb信息抽取时效果不佳.文中提出基于模拟退火算法与隐马尔可夫模型的W eb信息抽取算法.通过实验比较选择最佳的模拟退火算法参数,结合Baum-W elch算法优化隐马尔可夫模型并应用于W eb信息抽取.实验结果表明新算法在信息抽取的精确率和召回率都有明显的提高.  相似文献   

17.
评测是自然语言处理技术研究与发展的一个关键部分,同时也是最有争议的一个部分。作为自然语言处理范畴的中文文摘自动评测,较之英文文摘,有着更多的难点问题。在研究当前基于内容比较策略和基于数理统计策略两类自动文摘评测方法的基础上,提出了混合这两种策略的中文文摘自动评测方法,并通过两组不同实验验证了该评测方法的正确性与实用性。  相似文献   

18.
基于相邻词的中文关键词自动抽取   总被引:2,自引:0,他引:2  
文档关键词概括了文档的主题和内容,在信息检索、文本分类、文本聚类等领域有着重要应用.在总结前人研究成果的基础上,提出了一种基于相邻词的中文关键词自动抽取算法.在对50篇学术论文自动抽取关键词的实验中,采用精确匹配的评价获得了38.9%的精度和34.9%的召回率,采用近似匹配的评价获得了70.7%的精度和68.8%的召回率,能够为进一步的研究提供帮助.  相似文献   

19.
首先对现有的中文文本自动校对技术进行了分类研究,并在此基础上,结合二元语法模型、散串技术和校对候选矩阵方法,提出了一种基于窗口技术的校对方法。该方法先利用词间字接续方法和散串技术来定位疑错窗口,然后在疑错窗口内,依据由可信度增量构建的校对候选集对窗口内的疑错字串进行最终的定错和纠错。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号