期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

几种高鲁棒性通道及说话人自适应语音识别算法研究 总被引：1，自引：1，他引：0

陈景东姚磊黄泰翼《声学学报》1998,(6)

鲁棒性问题是决定语音识别技术能否在实际中得以应用和推广的关键问题之一。概括起来说，导致语音识别系统性能变坏的原因大体上来自三个方面，即噪声（加性噪声、卷积噪声）、信道变化和不同的讲话者（不同的声道形状、不同的发育方式等）。本文对三种高鲁律性自适应语音识别方法进行了研究和改进，并对它们的性能进行了比较，这三种方法分别是VQ码本自适应法、HMM参数自适应法和基于正则相关分析的谱变换补偿方法。实验结果表明，这三种方法都能提高非特定人语音识别系统对信道以及说话人的鲁棒性，而且基于正则相关分析的稻变换补偿方法具有最好的性能，它能够补偿由三种失真源同时引起的训练条件与测试条件之间的不匹配，因此适合作为一种通用的自适应方法。相似文献

2.

基于决策树的汉语三音子模型 总被引：8，自引：2，他引：6

高升徐波黄泰翼《声学学报》2000,(6)

基于决策树理论的上下文相关声学模型在英语语音识别中已经得到了比较深入的研究和应用,但在汉语语音识别中的应用则研究的比较少。本文基于决策树理论建立了汉语语境相关模型-三音于模型,讨论了决策构建模所要解决的几个重要问题：（1）基本建模单元集的选择,（2）音子类别集的设计,（3）评估函数的选择,（4）停止准则的选择,（5）决策树的建立和三音子模型的生成,本文着重分析了两种不同建模单元的性能：对音子类别集的设计提出了一些一般性的准则,并对我们设计的类别集进行了统计分析;分析了三音子模型在语音库的覆盖程度。实验结果表明,基于决策树的三音子声学模型建立的识别系统与双音子声学模型系统比较,误识率下降了24．7％。相似文献

3.

汉语人机对话系统语音试验材料集设计

孙金城李昌立莫福源李彤倪宏《声学学报》1993,(6)

根据汉语语音特点,为汉语人机对话系统设计了反映汉语语音主要特征、现象的语音试验材料集,作为汉语人机对话系统语音知识库的素材,用于研究语音合成规则、训练语音识别模板等.语音材料的选择以全面、典型、适量为原则,以反映汉语语音的韵律特征和音色特征的变化规律为目的,分别以声调及其组合、声韵组合为基础选择语音材料.全部材料已用数字录音机录制完毕. 相似文献

4.

卷积噪声环境下语音信号鲁棒特征提取

吕钊吴小培张超李密《声学学报》2010,35(4):465-470

提出了一种基于独立分量分析(ICA)的语音信号鲁棒特征提取算法,用以解决在卷积噪声环境下语音信号的训练与识别特征不匹配的问题。该算法通过短时傅里叶变换将带噪语音信号从时域转换到频域后,采用复值ICA方法从带噪语音的短时谱中分离出语音信号的短时谱,然后根据所得到的语音信号短时谱计算美尔倒谱系数(MFCC)及其一阶差分作为特征参数。在仿真与真实环境下汉语数字语音识别实验中,所提算法相比较传统的MFCC其识别正确率分别提升了34.8%和32.6%。实验结果表明基于ICA方法的语音特征在卷积噪声环境下具有良好的鲁棒性。相似文献

5.

汉语连续语音识别中一种新的音节间相关识别单元 总被引：1，自引：0，他引：1

李春王作英《声学学报》2003,(2)

考虑汉语连续语音中的协同发音现象对语音识别性能的提高是非常重要的。针对汉语语音的特点,提出了一种新的在汉语连续语音识别中考虑音节间协同发音现象,对声学模型进行细化的识别单元。然后基于语音学知识对音节间上下文影响进行分类,实现单元间状态参数的共享,降低了模型的复杂程度,保证了模型的可训练度。这种方法和传统方法的最大不同在于:这种方法完全利用语音学知识进行聚类,而传统方法采用数据驱动的聚类方式。识别实验表明,基于语音学分类的音节间相关识别单元对识别性能有明显的改善,系统的首选误识率降低了17％。相似文献

6.

基于熵函数的耳语音声韵分割法 总被引：11，自引：3，他引：8

栗学丽丁慧徐柏龄《声学学报》2005,(1)

耳语音声韵分割是耳语音识别和转换的前期工作。由于耳语发音不同于正常音,一般用于正常音的声韵分割法对耳语音不再适用。通过分析耳语音的发音及声学特点,利用宽带语谱图的声韵变化规律,提出了适用于耳语音的信息熵端点检测法,以及相对熵、音长和谱重心相结合的声韵分割法。并对两组信噪比为2-10 dB的380个汉语单音节耳语音进行声韵分割,女声的正确率为87.9％,男声的正确率为90.3％,高于频域法、聚类法和谱平坦度声韵分割法。实验表明,相对熵法可做为耳语音识别和转换的预处理,它改善了汉语耳语音转换为正常音的音质。相似文献

7.

连呼汉语识别研究

苑宝生俞铁城《声学学报》1989,(6)

本文介绍一种连呼汉语识别方法,方案中,提出一种自适应幅度规正(AAN)算法处理输入语音特征频谱,并引入声刺激量参数对其作时域非线性压缩规正。以单呼样本作参考样本。构造出一种快速动态时间弯折(FDTW)匹配过程。最后,设计出一种基于FDTW算法的二分叉树搜索决策方案进行连呼汉语识别。对十个汉语数字组成的2—5字随机序列按两种发音方式的实验给出的平均字串及字音识别率分别为:按汉语普通话发音96.8％及98.8%;按电报呼号发音97.6％及99.0%。相似文献

8.

基于发音特征的汉语普通话语音声学建模 总被引：3，自引：0，他引：3

张晴晴潘接林颜永红《声学学报》2010,35(2):254-260

将表征汉语普通话语音特点的发音特征引入汉语普通话语音识别的声学建模中,根据普通话发音特点,确定了用于区别普通话元音、辅音以及声调信息的9种发音特征,并以此为目标值训练神经网络得到语音信号属于各类发音特征的后验概率,将此概率作为语音识别的输入特征建立声学模型。在汉语普通话非特定人大词表自然口语对话识别系统中进行了实验验证,并与基于频谱特征的声学模型进行了比较,在相同解码速度下,由此方法建立的声学模型汉字错误率相对下降6.8%;将发音特征和频谱特征进行了融合实验,融合以后的识别系统相对基于频谱特征系统的汉字错误率相对下降10.1%。上述结果表明,基于发音特征的声学模型更加有效的实现了对语音特性的表征,通过利用发音特征和频谱特征的互补性,能够进一步实现对语音识别性能的提高。相似文献

9.

噪声对特征综合法语音识别性能的影响 总被引：4，自引：1，他引：3

王成友汤叔祺梁甸农《声学学报》1997,(3)

本文考查了噪声对特征综合法语音识别的影响，实验表明在不同环境噪声情况，文献1提出的通过特征综合提高语音识别性能的三种方法仍然能够提高识别率7％左右。相似文献

10.

声门下共鸣的谱规整用于非特定人的语音识别

侯丽敏黄振华谢娟敏《声学学报》2010,35(5):580-586

提出在参数的提取过程中用不同的感知规整因子对不同人的参数归一化,从而实现在非特定人语音识别中对不同人的归一化处理。感知规整因子是基于声门上和声门下之间耦合作用产生声门下共鸣频率来估算的,与采用声道第三共振峰作为基准频率的方法比较,它能较多的滤除语义信息的影响,更好地体现说话人的个性特征。本文提取抗噪性能优于Mel倒谱参数的感知最小方差无失真参数作为识别特征,语音模型用经典的隐马尔可夫模型(HMM)。实验证明,本文方法与传统的语音识别参数和用声道第三共振峰进行谱规整的方法相比,在干净语音中单词错误识别率分别下降了4%和3%,在噪声环境下分别下降了9%和5%,有效地改善了非特定人语音识别系统的性能。相似文献

11.

基于帧特征、段特征联合建模的语音识别模型

韩疆尹宝林《声学学报》2000,(2)

提出了基于帧特征、段特征联合建模的语音识别模型。该模型采用描述谱参数轨迹的段特征,在段尺度上实现了对语音信号帧间相关性的显式建模;采用段特征依赖的非平稳时间序列产生模型,实现了段特征与帧特征间的相关性建模,并在帧尺度上通过参数化的均值轨迹函数,实现了对语音信号帧间相关性的隐式建模。本文给出了基于帧特征、段特征联合统计距离优化的分段算法以及内嵌ＥＭ迭代的模型参数估计算法。对非特定人汉语孤立韵母以及多话者汉语基本音节的识别实验表明,该模型的识别性能优于标准ＨＭＭ及趋势ＨＭＭ。相似文献

12.

倒谱参数稀疏分解下的汉语音谎言检测

下载免费PDF全文

樊晓鹤赵鹤鸣陈雪勤周燕《声学学报》2018,43(1):121-128

为了提高汉语语音的谎言检测准确率,提出了一种对信号倒谱参数进行稀疏分解的方法。首先,采用小波包滤波器组对语音信号进行多频带划分,求得子频带对数能量并进行离散余弦变换以提取小波包频带倒谱系数,结合梅尔频率谱系数得到倒谱参数;其次,依据K-奇异值分解方法分别利用说谎和非说谎两种状态下的语音倒谱参数集训练得到过完备混合字典,在此字典上根据正交匹配追踪算法对参数集进行稀疏编码提取稀疏特征;最终进行多种分类模型下的识别实验·实验结果表明,稀疏分解方法相比传统参数降维方法具有更好的优化性能,本文推荐的稀疏谱特征最佳识别率达到78.34%,优于其他特征参数,显著提高了谎言检测识别准确率。相似文献

13.

多语种情感语音的韵律特征分析和情感识别研究 总被引：2，自引：1，他引：2

姜晓庆田岚崔国辉《声学学报》2006,31(3):217-221

韵律特征参数的变化是语音信号中情感信息主要体现。为了研究基于少量韵律特征的多语种语音样本情感识别的可行性,以提高情感识别系统对语种信息的鲁棒性,实验选取七种典型的情感状态,对指定句式下同一说话人在汉语、英语、日语多语种语音样本中的基频、能量、时间等韵律参数的动态特性进行统计分析。统计结果表明,不同语种情感语音样本的各种韵律特征参数的变化结构有较好的一致性。在这一结论基础上,利用主元素分析方法(PCA)对多语种混合样本进行了初步的情感识别实验,平均错误率为27．74％,最低识别错误率为11％。可见,通过基本的韵律参数可以实现对几种基本情感忽略语种信息的初步有效识别。相似文献

14.

认人的限定主题的连续汉语语音识别系统的研究 总被引：3，自引：0，他引：3

林道发杨家沅罗万伯王跟东《声学学报》1992,(6)

本文描述一个基于矢量量化(VQ)、隐马尔可夫模型和有限态文法的认人的限定主题的连续汉语语音识别系统。引入跨零幅度差函数作为判定语音有无的特征参量之一,HMM训练用的各单个词语的语音数据由连续话句的语音数据经自动切分而得,识别过程中,每帧都考虑多个可能过渡到其它模型的文法节点。这些技术措施显著地提高了识别系统的准确率。这类系统能用于特定人操作的、特定主题的信息查询任务。待进一步解决非特定人的连续语音识别问题后,可用于特定主题的公用信息查询系统。相似文献

15.

一种面向声音变换的参数化模型

黄德智蔡莲红《声学学报》2006,31(6):542-548

在源滤波器模型的基础上,利用统计学习方法,建立了一种面向声音变换的混合参数化模型。该模型包括浊音声学模型、清音声学模型和韵律补偿模型三部分。基于线性预测分析和mel倒谱分析的浊音声学模型,刻画了说话人声腔的共振特性。基于线性预测分析和噪声源分析的清音声学模型,反映了说话人发清音的特点。基于统计学习方法的韵律补偿模型描述了音高、能量与时长等分布特性。在该混合参数化模型的基础上,提出了一个声音变换算法,并将其应用到汉语音节的变换问题上。实验结果表明,对清浊音和韵律特性分别建模的变换算法能够提高重建语音的清晰度和可懂度,缩小重建语音与目标语音之间的感知距离,使重建语音具有目标说话人的韵律特征．相似文献

16.

基于声调建模的带噪汉语数字串语音识别 总被引：1，自引：1，他引：1

王欢良钱瑶 F.K.SOONG 韩纪庆《声学学报》2007,32(5):454-460

尝试利用声调信息来改善噪声下汉语数字串语音识别性能。为解决声调特征不连续问题,提出采用基于多空间概率分布的隐马尔可夫模型进行声调建模。简要分析噪声对声调特征提取的影响,论证了在带噪数字串语音识别中利用声调信息的可行性。实验结果显示,与不采用声调信息的方法相比,在5 dB到20 dB的测试数据上,所提方法可使错误率平均相对下降17.2%。这说明声调信息及所提建模方法对于改善带噪汉语数字串语音识别性能是有效的。相似文献

17.

基于中文语音识别技术的舰艇指挥训练系统的研究

景春进陈东东周琳琦《应用声学》2014,22(8):2571-2573

针对舰艇指挥训练系统的特点,提出了一种利用语音识别技术提高其训练效率的方法;首先分析了舰艇指挥指令的语言特点,然后研究了基于Sphinx平台的汉语连续语音识别的相关问题,包括声学模型的训练、语言模型的训练及语音识别引擎等;最后设计并实现了一个非特定人,中等专用词汇量的连续汉语语音识别系统;实验采用了一定数量的数字和专用词汇进行验证,结果表明,经过声学模型训练后,该系统的识别率有较大提高;该方法对提高舰艇指挥训练系统的自动化水平具有一定的指导意义。 相似文献

18.

汉语普通话语音数据库

孙金城陈希清李昌立莫福源倪宏李彤《声学学报》1991,(6)

中国科学院声学研究所建立了一个汉语普通话语音数据库,这个语音数据库由声母、韵母、1282个单音节、几百个双音词和三音词、语音试验句、短文及数字0—9等构成。该语音数据库的发音人有六位(三男三女),他们是广播学院的教师和职业播音员,讲标准的汉语普通话。语音材料录制在高质量的磁带上,其中有一部分已数字化。已有许多汉语语音研究部门使用该语音数据库。相似文献

19.

用于语音识别置信度的发音特征各维度分析和子集优化

孙艳庆张晴晴周瑜赵庆卫颜永红《声学学报》2011,36(3)

提出了基于发音特征单个维度的置信度算法,并基于此对发音特征的各个维度展开分析.分析不仅验证了融合的必要性,同时也展示了发音特征各维度之间以及和隐马尔可夫模型之间的大量冗余.为了去除冗余,提出了用子集选择的方法进行优化.对比所有都用的情况,基于发音特征紧凑子集的语音识别置信度估计,在等错率上取得了12.7%的相对下降.把经过优化后的基于发音特征的语音识别置信度估计和基于隐马尔可夫模型的语音识别置信度进行融合,在保持集内识别率不损失的前提下,显著提高了语法外输入测试的拒识性能:在相同参数下,在开发集和测试集上分别取得了34%和35.3%的显著改善. 相似文献

20.

匹配追踪说话人自适应方法

张文林屈丹李弼程《声学学报》2014,39(4):523-530

针对现有子空间自适应方法无法确定最佳说话人子空间的问题,提出一种基于匹配追踪的说话人自适应方法。将说话人自适应视为一种高维信号的稀疏分解问题,利用本征音和参考说话人超矢量的各自优势联合构造说话人字典;依据匹配追踪原理,通过迭代优化,以后验方式确定最佳说话人子空间维数及其基矢量。引入冗余基矢量检测与去除机制以保证算法的稳定性,并通过快速递推算法得到新说话人坐标。基于汉语连续语音识别的有监督说话人自适应实验结果表明,与本征音及参考说话人加权方法相比,平均有调音节正识率相对提高了1.9%。相似文献