首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
本文在分析了汉语单音节发音的音节结构的基础上,定义了基于声韵母类的语音识别单元,从声学角度确定了用于汉语全音节识别系统的声学单元,并研究了这些声学单元的检测一致性及基于这些单元的识别系统的鲁棒性。文中还对大量的发音人的声母类发音的长度作了统计,给出了基于本文给出的分割算法和本文定义的声母单元下的声母长度预分类方法。通过在非特定人全音节汉语语音识别系统上的应用表明,本文定义的语音识别单元具有很高的检测一致性,建立在其上的识别,系统也具有很高的鲁棒性;文中给出的预选方法在最好的情况下,可以减少一半以上的运算量,而预选精度几乎达到100%。  相似文献   

2.
提出了利用偶数帧段输入隐马尔可夫模型(HMM)提高在噪声环境下汉语连续语音识别系统鲁棒性的方法,并提出了对于传统谱相减降噪技术的修改方法。实验结果表明,本文的方法能有效地提高噪声背景下汉语连续语音识别系统的性能。  相似文献   

3.
陈立伟  张晔 《应用声学》2006,25(2):90-95
研究了一种非齐次隐马尔可夫模型(Inhomogeneous Hidden Markov Model),然后将自组织特征映射神经网络与这种非齐次隐马尔可夫模型相结合,训练出抗噪声的HMM模型,并应用该混合模型进行语音识别。实验结果表明,该模型适合于对噪声背景下的语音进行识别。该模型具有更好的抗噪鲁棒性,在信噪比较低的情况下(5dB-10dB),识别率可以提高5%左右。  相似文献   

4.
基于连续高斯混合密度HMM的汉语全音节语音识别研究   总被引:5,自引:0,他引:5  
本文在大量语音分析实验的基础上,对HMM用于汉语全音节语音识别进行了较为深入的探讨,建立了一个连续高斯混合密度HMM的汉语全音节语音识别系统.该系统在训练算法上撇开了传统的Baum-Welch算法,代之以计算复杂度小、存储量小、迭代次数少且具有自动分割效应的分段K平均算法。对于HMM的模型单元的选择,单元的结构以及模型参数的选取,充分考虑了汉语语音的特点;并在语音特征上做了深入的实验分析工作,采用了符合人耳听觉特性的Mel-Scaled参数,用FFT倒谱代替了LPC倒谱,同时利用了语音的动态谱特征和能量特征。另外,本文还针对汉语声母的特点,独特地提出了变帧移分析策略。整个识别系统的首选正识率为91.1%.  相似文献   

5.
汉语连续语音识别中一种新的音节间相关识别单元   总被引:1,自引:0,他引:1  
李春  王作英 《声学学报》2003,28(2):187-191
考虑汉语连续语音中的协同发音现象对语音识别性能的提高是非常重要的。针对汉语语音的特点,提出了一种新的在汉语连续语音识别中考虑音节间协同发音现象,对声学模型进行细化的识别单元。然后基于语音学知识对音节间上下文影响进行分类,实现单元间状态参数的共享,降低了模型的复杂程度,保证了模型的可训练度。这种方法和传统方法的最大不同在于:这种方法完全利用语音学知识进行聚类,而传统方法采用数据驱动的聚类方式。识别实验表明,基于语音学分类的音节间相关识别单元对识别性能有明显的改善,系统的首选误识率降低了17%。  相似文献   

6.
语音存在概率的估计是语音增强的核心技术之一,针对传统的存在概率估计方法是启发式的,没有把存在概率的估计统一到一个理论框架之中,不能保证估计最优,提出了一种基于序贯隐马尔可夫模型(SHMM)的存在概率估计方法,在每一子带上构建一个SHMM模型描述对数功率谱包络的时间序列,把谱包络序列看作一个在语音和噪声状态之间转移的动态一阶马尔可夫链,采用单高斯函数构建每一状态的概率模型,语音状态的后验概率即为语音信号的存在概率。为了满足算法实时性要求,SHMM参数估计简化为一阶回归过程,根据极大似然准则逐帧更新模型参数。实验表明:SHMM所描述的时序相关性对存在概率的估计起到关键作用,它优于一般的启发式估计方法;SHMM算法的语音增强分段信噪比(SegSNR)和对数谱失真(LSD)性能优于经典的改进型最小统计量控制递归平均(IMCRA)算法。  相似文献   

7.
汉语连续语音识别中语音处理和语言处理统合方法的研究   总被引:4,自引:1,他引:4  
提出了一种语音处理和语言处理按帧同步统合的汉语连续语音识别方法。该方法把基于 CFG语言模型和 Top Down型句法分析器的语言处理过程结合进基于有限状态自动机控制的 One Pass Viterbi语音识别算法中,实现了帧同步的语音语言处理的统合。为完成帧同步句法分析的单词预测和语音识别过程的结合,本文提出了一种类似于Earley法的 TopDown型句法分析方法以及 One Pass Viterbi算法中的有限状态自动机动态展开建立法. 60个音素单位和 8个声调单位的 HMM作为识别用基元模型被用于识别实验,识别结果表明,对于一个识别困难度(Perplexity)为27.3的任务(Task)的识别系统,利用本文提出的方法,10名话者发音的 1070句子的平均识别率达到 94.4%,比利用传统的基于单词确认(Word Spotting)以及从单词串(列)(lattice)进行句法分析的阶层性语音·语言统合方式的识别率提高约8%.  相似文献   

8.
郝学良  朱小冬  叶飞 《应用声学》2016,24(5):184-185, 290
针对当前软件可维护性评估主观性强,可操作性弱等问题,提出了定量描述维护性的维护时间统计概率描述方法,引入隐马尔可夫链(HMC)模型对维护性状态变迁过程进行描述,以可度量的维护性内部属性影响因素集量化值为观测序列,以维护时间统计概率为状态序列,构造了反映可维护性状态转移的HMC模型。收集配置管理库中软件模块历史维护时间从而确定完成维护任务频率来估计软件维护性初始状态,利用复杂网络特性计算软件维护性影响因素集的量化值,理论上即可评估出当前软件所处的维护性状态,最后运用实例对模型进行了训练与评估。结果表明,利用模型评估出的概率与实际维护任务统计出的可维护性概率基本一致,说明该方法可行且可重复,具有一定实践意义和研究前景。  相似文献   

9.
基于音节韵律特征分类的汉语语音合成中韵律模型的研究   总被引:4,自引:2,他引:2  
陶建华  蔡莲红 《声学学报》2003,28(5):395-402
论述了采用基于统计模型进行韵律建模的思路。在此基础上,提出了基于音节韵律特征分类的韵律建模思路,并采用韵律模板和韵律代价函数实现了韵律的自动预测。对该模型的自动训练算法进行了详细的阐述。根据统计的韵律建模方法,还分析了韵律特征间相互关联对音节韵律模板选取的影响。最后,进一步分析了统计韵律模型的进行韵律预测的误差分布情况,表明了该模型能够使语音合成系统具有较高自然度和高灵活性的特性。  相似文献   

10.
基于随机轨迹模型的汉语连续语音识别方法研究   总被引:1,自引:0,他引:1  
本文在指出隐马尔可夫模型(HMM)不合理假设的基础上,介绍了随机轨迹模型(STM)的理论机制及优越性。随机轨迹模型将语音基元的声学观察表示为参数空间中轨迹的聚类,并将轨迹建模为状态随机序列概率密度函数的混合,该模型可以克服HMM的不合理假设,在理论上更合理。根据STM的特点及汉语语音特色,本文对汉语连续语音识别基元的选取进行了讨论,提出了音素类单元作为识别系统的识别基元。基于STM的汉语连续语音识别的实验结果证明了STM的有效性和音素类单元的一致性。  相似文献   

11.
由于训练环境和识别环境的失配,识别系统的性能会严重下降。为此,提出了基于最大后验概率非线性变换的环境自适应算法,可以减小由于环境的失配所引起的系统性能的下降。在本算法中,利用分段线性回归近似非线性变换将训练环境下隐马尔可夫模型(HMM)的均值向量变换到识别环境,减小环境的失配,变换参数的估计采用了最大后验概率估计(MAP)。数字语音识别实验证明:该环境自适应算法的识别性能优于MLST,MAPLR和MLLR等算法。  相似文献   

12.
多语种情感语音的韵律特征分析和情感识别研究   总被引:3,自引:1,他引:2  
姜晓庆  田岚  崔国辉 《声学学报》2006,31(3):217-221
韵律特征参数的变化是语音信号中情感信息主要体现。为了研究基于少量韵律特征的多语种语音样本情感识别的可行性,以提高情感识别系统对语种信息的鲁棒性,实验选取七种典型的情感状态,对指定句式下同一说话人在汉语、英语、日语多语种语音样本中的基频、能量、时间等韵律参数的动态特性进行统计分析。统计结果表明,不同语种情感语音样本的各种韵律特征参数的变化结构有较好的一致性。在这一结论基础上,利用主元素分析方法(PCA)对多语种混合样本进行了初步的情感识别实验,平均错误率为27.74%,最低识别错误率为11%。可见,通过基本的韵律参数可以实现对几种基本情感忽略语种信息的初步有效识别。  相似文献   

13.
田斌  易克初 《声学学报》2003,28(1):28-32
针对语音识别中由于强噪声的影响而引起的Lombard和Loud效应进行研究,提出了基于训练数据的加性噪声和Lombard及Loud效应的联合补偿法。对于加性噪声是从谱减法的逆向角度对训练数据在频谱域采用谱加法;对于Lombard和Loud语音,则采用基于隐马尔可夫模型(HMM)状态标注的训练数据补偿,该方法同时考虑Lombard和Loud语音不同声学单元的不同状态在倒谱域的多种变化和多种变异情况下不同声学单元的音长及相对音长的变化。这种基于数据的多模式补偿使模型自动适应多种噪声和语音变异情况,在强噪声环境下具有很强的鲁棒性,并且不影响识别系统在正常环境或正常发音时的识别性能.同时,由于补偿是在训练过程中得到,不增加识别时的计算复杂度。  相似文献   

14.
高速摄影系统的时间分辨率是指能够分开瞬变事件二个相邻时态的能力。对于分幅记录,就是分幅时间;对于扫描记录,还不能说有了统一的认识和统一的测试评价方法。本文主要阐述了相干照明下扫描记录系统时间分辨率的理论公式,指出用激光照明测试时间分辨率时应按相干照明来进行推导,同时说明记录介质上一点的曝光应是狭缝象强  相似文献   

15.
提出了一种既符合人耳听觉特性又具有良好抗噪性的语音特征分析方法。首先将单边自相关函数序列进行时间方向的平滑处理,提高单边自相关函数的抗噪性,然后用平滑后的单边自相关函数序列代替原信号进行频率规整的LPC分析,最后经倒谱变换得到该特征参数。数字语音识别实验证明:利用该特征参数的语音识别系统的识别性能优于MEL倒谱系数、LPC倒谱系数等传统的语音特征参数。  相似文献   

16.
压力是一个重要的物理参量,通过调节物质内部分子、原子间距离和相互作用力,可以引起物质结构和构象变化。正醇是一种最简单的羟基代替烷基链末端氢原子的有机物,通过氢键和烷基链之间的作用力结合在一起,被称为氢键液体。氢键的键能较小,在外部压力作用下,氢键容易被压缩而断裂或网络重排,从而导致晶体结构和对称性的改变,对材料的性能产生重要影响。正戊醇是一种短链正醇,结构虽然简单,却可以作为烷基链结构有机物的典型代表。然而,高压下正戊醇的性质研究较少,尤其压力作用下其构象变化和氢键研究尚未见报道,因此正戊醇高压研究有待进一步深入。拉曼光谱和红外光谱是高压研究中常用的谱学测量技术,能够原位探测压力作用下分子内部基团变化,是研究结构、构象和氢键作用的有效手段。基于此,利用金刚石对顶砧装置(DAC),结合拉曼光谱和红外光谱,在0~12.0 GPa压力范围对正戊醇进行了高压研究。实验结果分三部分讨论:(1)研究了压力作用下正戊醇的结构相变行为。压力在3.2 GPa时,拉曼特征峰变锐变窄,同时有特征峰劈裂和新特征峰出现的现象,说明在该压力点发生一次液固相转变。(2)揭示了正戊醇在高压下的构象变化。正戊醇存在两种构象:反式构象和扭曲构象。通过分析两种构象特征峰随压力的变化,发现正戊醇发生液固相转变的过程伴随有构象变化,液态时以扭曲构象为主,固态时以反式构象为主。(3)探究了高压对正戊醇氢键的影响。羟基的特征峰随压力的增加发生红移,说明在加压过程中氢键作用增强。伴随液固相变,羟基特征峰劈裂成多个峰,形成新的氢键网络或团簇,且随压力的增加氢键网络或团簇逐渐增大,说明氢键对压力非常敏感,且对正戊醇晶体结构的稳定起着促进作用。该研究不仅为正戊醇生产应用提供重要的指导作用,同时为其他同类或复杂分子体系的物理和化学特性研究提供参考。  相似文献   

17.
研究用短波语音通话携带的飞机舱室噪声对飞机类型进行识别的方法。分析了飞机舱室内噪声在短波信道和语音通话干扰下的物理特性,定义了估计语音段的飞机噪声信噪比的公式,提出了自适应的抑制语音增强飞机噪声的模型,通过CZT变换分别提取目标信号不同频段的功率谱密度级特征,并设计了用支持向量机进行分类识别的二叉分类树。对8类现场实测数据进行实验:增强后语音段的平均信噪比提高约22 dB,分类树对语音应答间隔噪声、语音段信号和增强后的信号的平均识别率分别为82.79%,15.25%,50.18%。实验表明:应答间隔噪声可用于飞机类型识别;语音抑制算法带来较大的信噪比和识别率增益,证明语音段蕴含有助于飞机类型识别的重要信息,可为后续的研究奠定基础。  相似文献   

18.
 在一维应变冲击加载条件下,采用两个石英压力传感器进行了双值应力历史测量,对非晶态碳材料的动态响应特性进行了分析研究。研究结果表明,非晶态碳材料的冲击响应是简单稳定的,在试验冲击应力范围内为非线性弹性响应,Hugoniot曲线呈上凸的,表明材料内部传播的不是一个冲击波而是一簇压缩波,因此可采用特征线方法来解该冲击波问题,并用Riemann积分法对冲击应力过程进行修正,得到材料更精确的Hugoniot方程。还采用COPS程序对该材料的冲击响应过程进行了数值模拟,数值模拟曲线与试验曲线是很吻合的。表明采用Riemann积分法处理是合理的,此方法可以在VISAR测量中得到应用。  相似文献   

19.
提出了一种在汉语连续语音识别中基于 3维空间 Viterbi算法的音素模型和声调模型识别概率的统合方法。该方法采用60个音素单位的HMM和8个声调单位的HMM作为识别用基元模型。音素和声调基元模型识别结果的统合,采用音素的HMM状态、声调的HMM状态和时间的3 维空间帧同步Viterbi 算法来实现。本文还探讨了在该方法的基础上,给予不同路径限制时的匹配统合效果,并且通过和传统的匹配统合方式的比较,证明了提出的方法的有效性。  相似文献   

20.
人类动作识别在视频自动分析、视频检索等领域获得广泛应用,是目前的研究热点。然而现有的动作识别方法重点关注视频的非静态部分而忽略大部分静态部分,从而影响了动作识别和定位的效果。本文提出一种新的分层空间-时间分段表示法,以分层方式实现部位和整个身体的多分辨率表示,可用于运动识别和定位。该算法分为3个步骤。第一步,首先对每个视频帧进行分层分段,以得到一组分段树,每颗树是身体分段树的候选。第二步,利用视频的轮廓、接合对象结构、全局前景色等信息对候选分段树进行修剪。第三步,在时域上对剩余分段层的每个分段进行前向和后向跟踪。我们以难度较大的UCF-Sports和HighFive数据集为实验对象,对本文方法进行性能评估,实验结果表明,本文方法的性能要优于当前最新运动检测算法性能,运动定位性能与当前最新算法相当。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号