首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
汉语连续语音识别中一种新的音节间相关识别单元   总被引:1,自引:0,他引:1  
李春  王作英 《声学学报》2003,28(2):187-191
考虑汉语连续语音中的协同发音现象对语音识别性能的提高是非常重要的。针对汉语语音的特点,提出了一种新的在汉语连续语音识别中考虑音节间协同发音现象,对声学模型进行细化的识别单元。然后基于语音学知识对音节间上下文影响进行分类,实现单元间状态参数的共享,降低了模型的复杂程度,保证了模型的可训练度。这种方法和传统方法的最大不同在于:这种方法完全利用语音学知识进行聚类,而传统方法采用数据驱动的聚类方式。识别实验表明,基于语音学分类的音节间相关识别单元对识别性能有明显的改善,系统的首选误识率降低了17%。  相似文献   

2.
段长信息在连续语音识别中的应用研究   总被引:4,自引:1,他引:3  
基于段长分布的隐含马尔可夫模型(DDBHMM)有效地解决了经典HMM的缺陷.本文以DDBHMM模型为基础,详细研究了如何在连续语音识别中有效地利用段长信息。文中首先介绍了段长分布的统计方法,然后按照不同的说话速度对数据文件进行了分类,据此进行的识别实验表明,段长信息对于速度慢的文件效果最好,速度中等的次之,速度快的效果较小.作者认为,段长信息最大的作用在于能够得到更加精确的音节和状态分割点,并因而提高识别效果.同时,通过段长信息的有效利用,还能够提高识别系统对于说话速度的稳健性、作者又进行了细化研究,提出了利用分类段长和规整化的段长的研究方法,发现两者均可使识别效果有进一步的提高.为了研究如何利用段长之间的相关性,文中还提出了段长的Bigram的方法,并对之作了分析.最后,本文研究了采用后处理方法利用段长信息的效果,进一步说明了只有基于DDBHMM,在识别过程中同步利用段长信息,才能得到卓有成效的性能提高。  相似文献   

3.
提出了一种基于一致性自监督学习的鲁棒自动语音识别方法。该方法通过使用语音信号仿真技术,模拟一条语音在不同声学场景下的副本;在通过自监督学习方式学习语音表征的同时,极大化一条语音在不同声学环境下对应语音表征的相似性,从而获取到与环境干扰无关的语音表征方式,提高下游语音识别模型的性能。在远讲数据集CHiME-4和会议数据集AMI上的实验表明,所提的一致性自监督学习算法能够取得相比已有的wav2vec2.0自监督学习基线算法30%以上的识别词错误率下降。这表明,所提方法是一种获取噪声无关语音表征、提升鲁棒语音识别性能的有效方法。  相似文献   

4.
基于随机轨迹模型的汉语连续语音识别方法研究   总被引:1,自引:0,他引:1  
本文在指出隐马尔可夫模型(HMM)不合理假设的基础上,介绍了随机轨迹模型(STM)的理论机制及优越性。随机轨迹模型将语音基元的声学观察表示为参数空间中轨迹的聚类,并将轨迹建模为状态随机序列概率密度函数的混合,该模型可以克服HMM的不合理假设,在理论上更合理。根据STM的特点及汉语语音特色,本文对汉语连续语音识别基元的选取进行了讨论,提出了音素类单元作为识别系统的识别基元。基于STM的汉语连续语音识别的实验结果证明了STM的有效性和音素类单元的一致性。  相似文献   

5.
语音信号的增强相对谱滤波   总被引:3,自引:0,他引:3  
提出了在语音信号对数功率谱域和功率谱域顺序滤波的新的增强RASTA滤波(E_RASTA)方法。语音识别和说话人识别实验表明,E_RASTA滤波能够有效地去除加性噪声和卷积噪声的干扰,E_RASTA算法与语音信号的失真过程和噪声的功率谱无关。E_RASTA方法性能同J_RASTA算法类似或更好,且不需要J_RASTA 算法中的实时语音信噪比估计。E_RASTA 滤波器的设计表明,低频率的谱调制分量可引起语音识别和说话人识别性能的下降,说话人识别较语音识别需要较小的谱时间调制带宽。  相似文献   

6.
汉语语音的非线性动力学特性分析   总被引:2,自引:0,他引:2  
用非线性动力学方法对正常语速的汉语语音进行了初步研究,对关税维算法进行了改进以适合语音信号的特点,文章给出了摩擦音和单元音汉语的相空间重构图及关联维曲线,发现由于它们在发声机制上的不同,关联维算法能够区分摩擦音和单元音,同时初步研究表明,关联维算法也能为区分汉语四声提供信息。  相似文献   

7.
基于连续高斯混合密度HMM的汉语全音节语音识别研究   总被引:5,自引:0,他引:5  
本文在大量语音分析实验的基础上,对HMM用于汉语全音节语音识别进行了较为深入的探讨,建立了一个连续高斯混合密度HMM的汉语全音节语音识别系统.该系统在训练算法上撇开了传统的Baum-Welch算法,代之以计算复杂度小、存储量小、迭代次数少且具有自动分割效应的分段K平均算法。对于HMM的模型单元的选择,单元的结构以及模型参数的选取,充分考虑了汉语语音的特点;并在语音特征上做了深入的实验分析工作,采用了符合人耳听觉特性的Mel-Scaled参数,用FFT倒谱代替了LPC倒谱,同时利用了语音的动态谱特征和能量特征。另外,本文还针对汉语声母的特点,独特地提出了变帧移分析策略。整个识别系统的首选正识率为91.1%.  相似文献   

8.
本文在分析了汉语单音节发音的音节结构的基础上,定义了基于声韵母类的语音识别单元,从声学角度确定了用于汉语全音节识别系统的声学单元,并研究了这些声学单元的检测一致性及基于这些单元的识别系统的鲁棒性。文中还对大量的发音人的声母类发音的长度作了统计,给出了基于本文给出的分割算法和本文定义的声母单元下的声母长度预分类方法。通过在非特定人全音节汉语语音识别系统上的应用表明,本文定义的语音识别单元具有很高的检测一致性,建立在其上的识别,系统也具有很高的鲁棒性;文中给出的预选方法在最好的情况下,可以减少一半以上的运算量,而预选精度几乎达到100%。  相似文献   

9.
为进一步深入研究汉语韵律特征在时间维上的表现,特别录制了一个语音资料库。发音人共10名(5男5女),试验材料包括3个不同语法结构和逻辑结构的句子。发音人以3种不同的语速自然朗读,相隔几周之后重复发音,总共3次。采用语音分析专用软件SFS(Speech File System)进行时间-频率分析,试验结果表明:(1)语速变化时,句子重音和句调保持不变,(2)语速加快时,尾部成分的相对时长加大,(3)语速加快时音节调型可发生很大变化,(4)停顿不但可用于表现句法结构,而是在语速变化时起着时长上的调节作用,(5)在语速变化时,语音中有些音段(多数元音)是弹性较大的,容易被压缩或伸展,有些音段是比较稳定的,不是被压缩或伸展。  相似文献   

10.
基于改进卷积神经网络算法的语音识别   总被引:1,自引:1,他引:0       下载免费PDF全文
杨洋  汪毓铎 《应用声学》2018,37(6):940-946
为了解决传统卷积神经网络识别连续语音数据时识别性能较差的问题,提出一种改进的卷积神经网络算法。该方法引入Fisher准则以及L2正则化约束,在反向传播调整参数阶段,既保证参数误差的最小化,又确保分类以后的样本类间分布较分散,类内分布较集中,同时保证网络权值具有合适的数量级以有效缓解过拟合问题;采用一种更符合生物神经元激活特性的新型log激活函数进行卷积神经网络的优化,进一步提高语音识别的正确率。在语音识别库TIMIT以及THCHS30上的实验结果表明,相较于传统卷积神经网络算法,本文提出的改进算法能较好的提高语音识别率,且泛化能力更强。  相似文献   

11.
田斌  易克初 《声学学报》2003,28(1):28-32
针对语音识别中由于强噪声的影响而引起的Lombard和Loud效应进行研究,提出了基于训练数据的加性噪声和Lombard及Loud效应的联合补偿法。对于加性噪声是从谱减法的逆向角度对训练数据在频谱域采用谱加法;对于Lombard和Loud语音,则采用基于隐马尔可夫模型(HMM)状态标注的训练数据补偿,该方法同时考虑Lombard和Loud语音不同声学单元的不同状态在倒谱域的多种变化和多种变异情况下不同声学单元的音长及相对音长的变化。这种基于数据的多模式补偿使模型自动适应多种噪声和语音变异情况,在强噪声环境下具有很强的鲁棒性,并且不影响识别系统在正常环境或正常发音时的识别性能.同时,由于补偿是在训练过程中得到,不增加识别时的计算复杂度。  相似文献   

12.
由于训练环境和识别环境的失配,识别系统的性能会严重下降。为此,提出了基于最大后验概率非线性变换的环境自适应算法,可以减小由于环境的失配所引起的系统性能的下降。在本算法中,利用分段线性回归近似非线性变换将训练环境下隐马尔可夫模型(HMM)的均值向量变换到识别环境,减小环境的失配,变换参数的估计采用了最大后验概率估计(MAP)。数字语音识别实验证明:该环境自适应算法的识别性能优于MLST,MAPLR和MLLR等算法。  相似文献   

13.
基于声调建模的带噪汉语数字串语音识别   总被引:2,自引:1,他引:1  
尝试利用声调信息来改善噪声下汉语数字串语音识别性能。为解决声调特征不连续问题,提出采用基于多空间概率分布的隐马尔可夫模型进行声调建模。简要分析噪声对声调特征提取的影响,论证了在带噪数字串语音识别中利用声调信息的可行性。实验结果显示,与不采用声调信息的方法相比,在5 dB到20 dB的测试数据上,所提方法可使错误率平均相对下降17.2%。这说明声调信息及所提建模方法对于改善带噪汉语数字串语音识别性能是有效的。  相似文献   

14.
徐舜  刘郁林  柏森 《应用声学》2008,27(3):173-180
盲分离算法能在缺少混合系统参数的条件下仅由观测信号估计初始源,但分离信号存在固有的排列模糊性,这往往导致两次批处理过程中同一信号"对不准",因此很难获得连续的源信号。本文针对盲声源分离中存在的相同问题,根据语音和其他音频信号的特征差异,提出一种修正的自相关函数并以其值作为一个特征基元来表征声音信号的时序相关特性,同时用平均声门波形状参数作为另一个特征基元来表征语音产生的生理效应。以这两个参数作为识别不同音频信号的二维模式特征,采用一种模糊聚类算法提取多路盲分离语音。本方法有效克服了批处理盲声源分离中的信号排列顺序的不确定性,并通过选择合适的阈值提取多路连续语音。仿真给出了5路混合音频信号中盲提取两路连续语音的实验结果。  相似文献   

15.
基于主成分分析的汉语连续语音切分算法   总被引:1,自引:0,他引:1       下载免费PDF全文
张永锋  杨影  肖莹莹 《应用声学》2011,30(5):366-369
连续语音切分是汉语连续语音识别中的一项重要技术。本文将通常用于图像处理的主成分分析(PCA)方法引入汉语连续语音切分领域,目的是通过PCA,降低语音帧之间的频谱相关性。再利用相邻语音帧特征构成的三维子空间的大小,实现连续语音切分,取得了不错的切分效果。  相似文献   

16.
混合双语语音识别的研究   总被引:1,自引:0,他引:1  
随着现代社会信息的全球化,双语以及多语混合的语言现象日趋普遍,随之而产生的双语或多语语音识别也成为语音识别研究领域的热门课题。在双语混合语音识别中,主要面临的问题有两个:一是在保证双语识别率的前提下控制系统的复杂度;二是有效处理插入语中原用语引起的非母语口音现象。为了解决双语混合现象以及减少统计建模所需的数据量,通过音素混合聚类方法建立起一个统一的双语识别系统。在聚类算法中,提出了一种新型基于混淆矩阵的两遍音素聚类算法,并将该方法与传统的基于声学似然度准则的聚类方法进行比较;针对双语语音中非母语语音识别性能较低的问题,提出一种新型的双语模型修正算法用于提高非母语语音的识别性能。实验结果表明,通过上述方法建立起来的中英双语语音识别系统在有效控制模型规模的同时,实现了同时对两种语言的识别,且在单语言语音和混合语言语音上的识别性能也能得到有效保证。  相似文献   

17.
王炜宇  马蕙  王超 《应用声学》2023,42(4):844-852
警报语音广播是紧急情况时提高建筑物内疏散效率的有效手段。通过实验室研究的方法,研究了语音特性及声场因素对老年群体警报语音可懂度和主观感受的影响。主观感受选取了听音容易程度和感知紧迫性两个维度。研究结果表明,老年人警报语音可懂度和听音容易程度评价主要受语速、信噪比和混响时间的影响,且呈现一致的变化趋势,即随着语速和混响时间降低以及信噪比的增加,老年人可懂度和听音容易程度得分均升高,而声压级(最低设置为60dB)、有无警铃和噪声类型没有显著影响。感知紧迫性随语速和声压级的增加而显著增加,信噪比、混响时间及有无警铃声对感知紧迫性并无显著影响。采用人声播报的警报语音其可懂度和感知紧迫性显著高于合成声。比较老年人和年轻人群体的结果发现,在语速、声压级和噪声类型对主观评价的影响上有显著差异。为建立老年人理想且安全的声环境,应采用人声播报并适当降低语速以保证可懂度,同时混响及信噪比条件两方面的改善都是必要的。  相似文献   

18.
有效特征的选取一直都是语音情感识别算法的关键。为此,针对语音情感特征选择与构建的问题,一种仿选择性注意机制的语音情感识别算法被提出。考虑到语音信号的时频特性,算法首先计算语音信号的语谱图;其次,模仿选择性注意机制,计算语谱图的颜色、方向和亮度特征图,归一化后形成特征矩阵;然后,将特征矩阵重排列并进行PCA降维,形成情感识别特征向量;最后,利用改进的支持向量机分类方法进行语音情感识别。对愤怒、恐惧、高兴、悲伤和惊奇5种情感的识别实验显示,基于选择性注意的方法能够获得较好的识别效果,平均识别率为85.44%。相比于韵律特征和音质特征,语音情感识别率至少提高10%;相比于其它语谱特征,识别率提高7%左右。  相似文献   

19.
提出了一种在汉语连续语音识别中基于 3维空间 Viterbi算法的音素模型和声调模型识别概率的统合方法。该方法采用60个音素单位的HMM和8个声调单位的HMM作为识别用基元模型。音素和声调基元模型识别结果的统合,采用音素的HMM状态、声调的HMM状态和时间的3 维空间帧同步Viterbi 算法来实现。本文还探讨了在该方法的基础上,给予不同路径限制时的匹配统合效果,并且通过和传统的匹配统合方式的比较,证明了提出的方法的有效性。  相似文献   

20.
汉语连续语音识别中语音处理和语言处理统合方法的研究   总被引:5,自引:1,他引:4  
提出了一种语音处理和语言处理按帧同步统合的汉语连续语音识别方法。该方法把基于 CFG语言模型和 Top Down型句法分析器的语言处理过程结合进基于有限状态自动机控制的 One Pass Viterbi语音识别算法中,实现了帧同步的语音语言处理的统合。为完成帧同步句法分析的单词预测和语音识别过程的结合,本文提出了一种类似于Earley法的 TopDown型句法分析方法以及 One Pass Viterbi算法中的有限状态自动机动态展开建立法. 60个音素单位和 8个声调单位的 HMM作为识别用基元模型被用于识别实验,识别结果表明,对于一个识别困难度(Perplexity)为27.3的任务(Task)的识别系统,利用本文提出的方法,10名话者发音的 1070句子的平均识别率达到 94.4%,比利用传统的基于单词确认(Word Spotting)以及从单词串(列)(lattice)进行句法分析的阶层性语音·语言统合方式的识别率提高约8%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号