期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

关存太陈永彬吴伯修《声学学报》1994,(5)

本文在分析了汉语单音节发音的音节结构的基础上，定义了基于声韵母类的语音识别单元，从声学角度确定了用于汉语全音节识别系统的声学单元，并研究了这些声学单元的检测一致性及基于这些单元的识别系统的鲁棒性。文中还对大量的发音人的声母类发音的长度作了统计，给出了基于本文给出的分割算法和本文定义的声母单元下的声母长度预分类方法。通过在非特定人全音节汉语语音识别系统上的应用表明，本文定义的语音识别单元具有很高的检测一致性，建立在其上的识别，系统也具有很高的鲁棒性；文中给出的预选方法在最好的情况下，可以减少一半以上的运算量，而预选精度几乎达到１００％。相似文献

2.

汉语语音资料库的语音学标记及人工切分 总被引：2，自引：0，他引：2

朱维彬张家《声学学报》1999,(3)

介绍了汉语语音综合资料库的一个子库：CAS－SYL。该数据库包括汉语全部有调音节1267个,共计10个发音人;全部语音数据由人工完成音段切分及语音学标注。针对汉语音节的声韵结构,语音学标注水平被定位在半音节层次上．语音学标注符号系统采用了计算机可读的音标符号系统一汉语SAMPA－X（extendedSAMPhoneticAlphabet）．还介绍了语音学标注策略,音段定位原则,基于语音波形的声门关闭时刻：GCI（GlottalClosedInstant）的声学线索。同时对声韵间的协同发音的声学体现进行了总结。最后对人工切分带来的非稳定性进行了分析．相似文献

3.

汉语连续语音数据库的语料设计 总被引：10，自引：0，他引：10

祖漪清《声学学报》1999,(3)

质量优良的语音识别系统或语音合成系统需要高质量的、在语音学和语言学知识指导下设计的科学合理简洁有效的连续语音数据库的支持．在目前阶段,汉语语音数据库应限制在朗读言语（readspeech）的音段方面。为了描写语流中的音变现象,考虑如下语音单元：（1）不计声调的音节（401个）。（2）音节间的双音子415个。（3）音节间的三音子3035个,这是根据37个基本音子,利用音节间共振峰过渡的研究结果,按规则规纳的结果．（4）所有音节间过渡段的韵母一声母结构,采用和同三音子相同的归并方法,共781个．为了增加不同的韵律结构,并考虑语音识别系统的后处理,语料还包括汉语的17类基本句型．选用1993、1994两年的“人民日报”、“百家报刊精选”及若干电视剧本、词典词库作为语料库的原始语料,从中选出2185个句子和388个短语作为朗读语料,它们覆盖了99．8％个无调音节,100％的双音子,99．6％的三音子,以及17类句型。相似文献

4.

混合双语语音识别的研究 总被引：1，自引：0，他引：1

张晴晴潘接林颜永红《声学学报》2010,35(2):270-275

随着现代社会信息的全球化,双语以及多语混合的语言现象日趋普遍,随之而产生的双语或多语语音识别也成为语音识别研究领域的热门课题。在双语混合语音识别中,主要面临的问题有两个:一是在保证双语识别率的前提下控制系统的复杂度;二是有效处理插入语中原用语引起的非母语口音现象。为了解决双语混合现象以及减少统计建模所需的数据量,通过音素混合聚类方法建立起一个统一的双语识别系统。在聚类算法中,提出了一种新型基于混淆矩阵的两遍音素聚类算法,并将该方法与传统的基于声学似然度准则的聚类方法进行比较;针对双语语音中非母语语音识别性能较低的问题,提出一种新型的双语模型修正算法用于提高非母语语音的识别性能。实验结果表明,通过上述方法建立起来的中英双语语音识别系统在有效控制模型规模的同时,实现了同时对两种语言的识别,且在单语言语音和混合语言语音上的识别性能也能得到有效保证。相似文献

5.

基于随机轨迹模型的汉语连续语音识别方法研究 总被引：1，自引：0，他引：1

马小辉富煜清陆佶人龚一凡《声学学报》1997,(2)

本文在指出隐马尔可夫模型（HMM）不合理假设的基础上,介绍了随机轨迹模型（STM）的理论机制及优越性。随机轨迹模型将语音基元的声学观察表示为参数空间中轨迹的聚类,并将轨迹建模为状态随机序列概率密度函数的混合,该模型可以克服HMM的不合理假设,在理论上更合理。根据STM的特点及汉语语音特色,本文对汉语连续语音识别基元的选取进行了讨论,提出了音素类单元作为识别系统的识别基元。基于STM的汉语连续语音识别的实验结果证明了STM的有效性和音素类单元的一致性。相似文献

6.

汉语自然口语中声调识别的研究 总被引：2，自引：0，他引：2

下载免费PDF全文

刘赵杰邵健张鹏远赵庆卫颜永红冯稷《物理学报》2007,56(12):7064-7069

汉语是一种带声调的语言，声调信息在汉语识别中具有非常重要的意义.传统的声调识别一般只研究朗读式语音中相对标准的声调，很少对声调调型比较复杂的自然口语进行专门的处理.针对汉语自然口语的特点，在声调建模单元的选择时提出了真实上下文的模型.同时，为了对声调模式进行精细建模，采用了一种层次聚类的方法来获得更多的声调模式.实验结果证明了方法的有效性. 关键词：声调识别自然口语真实上下文模型聚类相似文献

7.

基于半波差分谱的语音信号音节切分 总被引：1，自引：1，他引：0

张红黄泰翼李治《声学学报》2000,(4)

根据听觉感知系统对于动态语音特征的响应特点,提出了半波差分港的概念,在此基础上提出了一种简便的音节切分算法,可以将存在大量协同发音现象的连续语音切分成一个个音节。在连续语音上的切分实验结果说明这种切分算法是准确而可靠的．相似文献

8.

汉语音节音联感知特性研究 总被引：1，自引：0，他引：1

初敏唐涤飞司宏岩孔江平田旭青吕士楠《声学学报》1997,(2)

汉语音联可分为:闭音联、音节音联、节奏音联和停顿音联等四级,其中团音朕最强、音节音联次之,另外两种音联较弱。在以音节为基本单元的汉语合成系统中,闭音联已保留在语音库中,因此需要着重考虑的是音节音联。本文以服务于汉语文语转换系统为目的,通过两个阶段的感知实验,研究了汉语音节音联在听觉感知中的作用。得到以下结论:①从总体上看,听音人对汉语双音节词中音高模式的变化的感知比较灵敏,而对音节间共振峰过波段的感知不灵敏,共振峰过波段对合成语音的自然度的影响不显著。②有语音学知识背景的专家或专业人员在判别合成语音的自然度时,比普通听音人更注意音节间的共振峰过渡。但即使是专家,也不容易判别在合成语音中音节间是否包含了共振蜂的平滑过渡。③双音节调的语音结构对音节间共振峰过渡的感知有影响。双音节词的声调组合对它也有一定影响。相似文献

9.

基于连续高斯混合密度HMM的汉语全音节语音识别研究 总被引：5，自引：0，他引：5

国立新莫福源李昌立《声学学报》1995,(5)

本文在大量语音分析实验的基础上，对ＨＭＭ用于汉语全音节语音识别进行了较为深入的探讨，建立了一个连续高斯混合密度ＨＭＭ的汉语全音节语音识别系统．该系统在训练算法上撇开了传统的Ｂａｕｍ－Ｗｅｌｃｈ算法，代之以计算复杂度小、存储量小、迭代次数少且具有自动分割效应的分段Ｋ平均算法。对于ＨＭＭ的模型单元的选择，单元的结构以及模型参数的选取，充分考虑了汉语语音的特点；并在语音特征上做了深入的实验分析工作，采用了符合人耳听觉特性的Ｍｅｌ－Ｓｃａｌｅｄ参数，用ＦＦＴ倒谱代替了ＬＰＣ倒谱，同时利用了语音的动态谱特征和能量特征。另外，本文还针对汉语声母的特点，独特地提出了变帧移分析策略。整个识别系统的首选正识率为９１．１％．相似文献

10.

基于帧特征、段特征联合建模的语音识别模型

韩疆尹宝林《声学学报》2000,(2)

提出了基于帧特征、段特征联合建模的语音识别模型。该模型采用描述谱参数轨迹的段特征,在段尺度上实现了对语音信号帧间相关性的显式建模;采用段特征依赖的非平稳时间序列产生模型,实现了段特征与帧特征间的相关性建模,并在帧尺度上通过参数化的均值轨迹函数,实现了对语音信号帧间相关性的隐式建模。本文给出了基于帧特征、段特征联合统计距离优化的分段算法以及内嵌ＥＭ迭代的模型参数估计算法。对非特定人汉语孤立韵母以及多话者汉语基本音节的识别实验表明,该模型的识别性能优于标准ＨＭＭ及趋势ＨＭＭ。相似文献

11.

一种用于强噪声环境下语音识别的含噪Lombard及Loud语音补偿方法

田斌易克初《声学学报》2003,(1)

针对语音识别中由于强噪声的影响而引起的Lombard和Loud效应进行研究,提出了基于训练数据的加性噪声和Lombard及Loud效应的联合补偿法。对于加性噪声是从谱减法的逆向角度对训练数据在频谱域采用谱加法;对于Lombard和Loud语音,则采用基于隐马尔可夫模型(HMM)状态标注的训练数据补偿,该方法同时考虑Lombard和Loud语音不同声学单元的不同状态在倒谱域的多种变化和多种变异情况下不同声学单元的音长及相对音长的变化。这种基于数据的多模式补偿使模型自动适应多种噪声和语音变异情况,在强噪声环境下具有很强的鲁棒性,并且不影响识别系统在正常环境或正常发音时的识别性能.同时,由于补偿是在训练过程中得到,不增加识别时的计算复杂度。相似文献

12.

基于发音特征的汉语普通话语音声学建模 总被引：3，自引：0，他引：3

张晴晴潘接林颜永红《声学学报》2010,35(2):254-260

将表征汉语普通话语音特点的发音特征引入汉语普通话语音识别的声学建模中,根据普通话发音特点,确定了用于区别普通话元音、辅音以及声调信息的9种发音特征,并以此为目标值训练神经网络得到语音信号属于各类发音特征的后验概率,将此概率作为语音识别的输入特征建立声学模型。在汉语普通话非特定人大词表自然口语对话识别系统中进行了实验验证,并与基于频谱特征的声学模型进行了比较,在相同解码速度下,由此方法建立的声学模型汉字错误率相对下降6.8%;将发音特征和频谱特征进行了融合实验,融合以后的识别系统相对基于频谱特征系统的汉字错误率相对下降10.1%。上述结果表明,基于发音特征的声学模型更加有效的实现了对语音特性的表征,通过利用发音特征和频谱特征的互补性,能够进一步实现对语音识别性能的提高。相似文献

13.

语音识别中多种特征信息综合利用的方法 总被引：3，自引：1，他引：2

王成友汤叔祺梁甸农陈辉煌唐朝京《声学学报》1997,(2)

在基于特征的语音识别研究中,往往会发现其中有些特征的识别性能对一些音比另一些音更好,而另一些特征却与此相反。它们在一些音的识别特性上存在着一定程度的互补。本文基于目前话音识别研究主要方法之一的HMMM识别方法,提出了三种有效综合利用这种互补关系提高HMM识别性能的方法。作者分别称它们为顶尖参数法,全部参数法和最可靠参数法。这三种方法在多发音人汉语数字的DHMM/VQ语音识别中,分别将识别率由89％提高到了92.3％、95.7％、94.3％。本文将详细介绍这三种方法,及其在多发育人汉语数字的DHMM/VQ语音识别中试验结果极及其分析。相似文献

14.

汉语耳语音孤立字识别研究 总被引：6，自引：0，他引：6

下载免费PDF全文

杨莉莉林玮徐柏龄《应用声学》2006,25(3):187-192

耳语音识别有着广泛的应用前景,是一个全新的课题.但是由于耳语音本身的特点,如声级低、没有基频等,给耳语音识别研究带来了困难.本文根据耳语音信号发音模型,结合耳语音的声学特性,建立了一个汉语耳语音孤立字识别系统.由于耳语音信噪比低,必须对其进行语音增强处理,同时在识别系统中应用声调信息提高了识别性能.实验结果说明了MFCC结合幅值包络可作为汉语耳语音自动识别的特征参数,在小字库内用HMM模型识别得出的识别率为90.4%. 相似文献

15.

基于声调建模的带噪汉语数字串语音识别 总被引：1，自引：1，他引：1

王欢良钱瑶 F.K.SOONG 韩纪庆《声学学报》2007,32(5):454-460

尝试利用声调信息来改善噪声下汉语数字串语音识别性能。为解决声调特征不连续问题,提出采用基于多空间概率分布的隐马尔可夫模型进行声调建模。简要分析噪声对声调特征提取的影响,论证了在带噪数字串语音识别中利用声调信息的可行性。实验结果显示,与不采用声调信息的方法相比,在5 dB到20 dB的测试数据上,所提方法可使错误率平均相对下降17.2%。这说明声调信息及所提建模方法对于改善带噪汉语数字串语音识别性能是有效的。相似文献

16.

基于改进卷积神经网络算法的语音识别 总被引：1，自引：1，他引：0

下载免费PDF全文

杨洋汪毓铎《应用声学》2018,37(6):940-946

为了解决传统卷积神经网络识别连续语音数据时识别性能较差的问题,提出一种改进的卷积神经网络算法。该方法引入Fisher准则以及L2正则化约束,在反向传播调整参数阶段,既保证参数误差的最小化,又确保分类以后的样本类间分布较分散,类内分布较集中,同时保证网络权值具有合适的数量级以有效缓解过拟合问题;采用一种更符合生物神经元激活特性的新型log激活函数进行卷积神经网络的优化,进一步提高语音识别的正确率。在语音识别库TIMIT以及THCHS30上的实验结果表明,相较于传统卷积神经网络算法,本文提出的改进算法能较好的提高语音识别率,且泛化能力更强。相似文献

17.

基于鼻韵尾分离的汉语声韵母识别模型

邵健赵庆卫颜永红《声学学报》2010,35(5):587-592

研究汉语自然口语识别中的建模单元选择问题。在HMM三状态模型中,声韵母单元与音素单元作为两种最流行的建模单元各有优劣。一方面从自然口语音变严重的问题出发,倾向采用粗粒度的声韵母单元以概括各种音变;另一方面从三状态结构可能无法有效描述复杂单元的问题出发,又倾向采用细粒度的音素单元。本文在实验语音学理论研究成果与声韵母时长分析实验结果的基础上,主张对扩展声韵母单元进行有选择的拆分,提出了基于鼻韵尾分离的声韵母拆分方法。实验结果表明本文的方法与扩展声韵母单元、音素单元相比,识别性能有了明显改善,其字错误率分别降低2.23%和9.45%。相似文献

18.

音节混淆字典及在汉语口音自适应中的应用研究

刘明宽徐波黄泰翼胡伟湘《声学学报》2002,(1)

提出了一种基于对识别器识别错误的统计分析建立音节混淆字典，并应用该音节混淆字典作为识别器的先验知识来校正结果的识别方法。这种近似的音节混淆字典可以分与语境无关和相关两种情况讨论，作为一种先验知识，它综合地刻画了说话人的发音特征、识别器的识别特征以及二者之间的相对关系。实验中，我们应用语境无关／相关的音节混淆字典于识别带上海口音的普通话识别器，使其音节误识率分别下降１５％及２０％。在此基础上，本论文结合常规的声学模型参数重估自适应ＭＡＰ（最大后验概率）算法进一步研究了这种方法应用于语音识别系统的实际效果。结果证明，二者互为补充，更大地提高了识别器的精度。相似文献

19.

隐马尔可夫模型和动态时间现正统一框架下的汉语全音节语音识别研究

张焱姜惠春黄志同《声学学报》1998,(6)

提出了广义模型，将动态时间规正（DTW,DynamicTimeWarping）技术和隐马尔可夫模型（HMM，HiddenMarkovModel）统一到一个语音声学模型的框架内．分析表明，广义模型更接近语音实际情况并具有很小的存储量．还利用广义模型构造了汉语全音节语音识别器，和离散HMM及DTW的对比实验结果显示：对于特定人识别，广义模型的识别性能和DTW相当而高于离散HMM；对于非特定人识别，广义模型的识别性能高于DTW和离散HMM。相似文献

20.

用于语音识别置信度的发音特征各维度分析和子集优化

孙艳庆张晴晴周瑜赵庆卫颜永红《声学学报》2011,36(3)

提出了基于发音特征单个维度的置信度算法,并基于此对发音特征的各个维度展开分析.分析不仅验证了融合的必要性,同时也展示了发音特征各维度之间以及和隐马尔可夫模型之间的大量冗余.为了去除冗余,提出了用子集选择的方法进行优化.对比所有都用的情况,基于发音特征紧凑子集的语音识别置信度估计,在等错率上取得了12.7%的相对下降.把经过优化后的基于发音特征的语音识别置信度估计和基于隐马尔可夫模型的语音识别置信度进行融合,在保持集内识别率不损失的前提下,显著提高了语法外输入测试的拒识性能:在相同参数下,在开发集和测试集上分别取得了34%和35.3%的显著改善. 相似文献