期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

梁瑞宇赵力陶华伟王青云邹采荣《声学学报》2016,41(4):537-544

有效特征的选取一直都是语音情感识别算法的关键。为此,针对语音情感特征选择与构建的问题,一种仿选择性注意机制的语音情感识别算法被提出。考虑到语音信号的时频特性,算法首先计算语音信号的语谱图;其次,模仿选择性注意机制,计算语谱图的颜色、方向和亮度特征图,归一化后形成特征矩阵;然后,将特征矩阵重排列并进行PCA降维,形成情感识别特征向量;最后,利用改进的支持向量机分类方法进行语音情感识别。对愤怒、恐惧、高兴、悲伤和惊奇5种情感的识别实验显示,基于选择性注意的方法能够获得较好的识别效果,平均识别率为85.44%。相比于韵律特征和音质特征,语音情感识别率至少提高10%;相比于其它语谱特征,识别率提高7%左右。相似文献

2.

语音识别中多种特征信息综合利用的方法 总被引：3，自引：1，他引：2

王成友汤叔祺梁甸农陈辉煌唐朝京《声学学报》1997,(2)

在基于特征的语音识别研究中,往往会发现其中有些特征的识别性能对一些音比另一些音更好,而另一些特征却与此相反。它们在一些音的识别特性上存在着一定程度的互补。本文基于目前话音识别研究主要方法之一的HMMM识别方法,提出了三种有效综合利用这种互补关系提高HMM识别性能的方法。作者分别称它们为顶尖参数法,全部参数法和最可靠参数法。这三种方法在多发音人汉语数字的DHMM/VQ语音识别中,分别将识别率由89％提高到了92.3％、95.7％、94.3％。本文将详细介绍这三种方法,及其在多发育人汉语数字的DHMM/VQ语音识别中试验结果极及其分析。相似文献

3.

基于发音特征的汉语普通话语音声学建模 总被引：3，自引：0，他引：3

张晴晴潘接林颜永红《声学学报》2010,35(2):254-260

将表征汉语普通话语音特点的发音特征引入汉语普通话语音识别的声学建模中,根据普通话发音特点,确定了用于区别普通话元音、辅音以及声调信息的9种发音特征,并以此为目标值训练神经网络得到语音信号属于各类发音特征的后验概率,将此概率作为语音识别的输入特征建立声学模型。在汉语普通话非特定人大词表自然口语对话识别系统中进行了实验验证,并与基于频谱特征的声学模型进行了比较,在相同解码速度下,由此方法建立的声学模型汉字错误率相对下降6.8%;将发音特征和频谱特征进行了融合实验,融合以后的识别系统相对基于频谱特征系统的汉字错误率相对下降10.1%。上述结果表明,基于发音特征的声学模型更加有效的实现了对语音特性的表征,通过利用发音特征和频谱特征的互补性,能够进一步实现对语音识别性能的提高。相似文献

4.

基于改进的隐马尔可夫和神经网络混合模型的语音识别

下载免费PDF全文

陈立伟张晔《应用声学》2006,25(2):90-95

研究了一种非齐次隐马尔可夫模型（Inhomogeneous Hidden Markov Model），然后将自组织特征映射神经网络与这种非齐次隐马尔可夫模型相结合，训练出抗噪声的HMM模型，并应用该混合模型进行语音识别。实验结果表明，该模型适合于对噪声背景下的语音进行识别。该模型具有更好的抗噪鲁棒性，在信噪比较低的情况下（5dB-10dB），识别率可以提高5％左右。相似文献

5.

面向语音情感识别的改进可辨别完全局部二值模式

陶华伟张昕然梁瑞宇查诚赵力王青云《声学学报》2016,41(6):905-912

为了研究语音情感与语谱图特征间的关系,本文研究并提出一种面向语音情感识别的改进可辨别完全局部二值模式特征。首先,基于语谱图灰度图像,计算图像的完全局部二值符号模式(CLBP_S)、幅度模式(CLBP_M)的统计直方图。然后,将CLBP_S,CLBP_M统计直方图输入可区别特征学习模型中,训练得到全局显著性模式集合。最后,采用全局显著性模式集合对CLBP_S,CLBP_M直方图进行处理,将处理后的特征级联,得到面向语音情感识别的改进可辨别完全局部二值模式特征(IDisCLBP_SER)。基于柏林库、中文情感语音库的语音情感识别实验显示,IDisCLBP_SER特征召回率比纹理图像信息(TII)等特征提高了8%以上,比声学频谱特征平均提高了4%以上。而且,本文提出的特征可以和现有声学特征进行较好融合,融合后的特征召回率比现有声学特征召回率提高1%~4%。相似文献

6.

基于多带解调分析和瞬时频率估计的耳语音话者识别 总被引：4，自引：0，他引：4

王敏赵鹤鸣《声学学报》2010,35(4):471-476

为了改善耳语音话者识别的稳健性,提出了一种基于调幅-调频(AM-FM)模型的耳语音特征参数,瞬时频率估计(IFE)。根据语音产生的共振峰调制理论,采用多带解调分析(MDA)获得语音的瞬时包络和频率;然后根据包络幅度和频率的加权估计,得到语音的特征IFE来描绘语音的频率结构。将该特征用于耳语话者识别并和传统的Mel倒谱系数(MFCC)进行了比较。实验结果表明,随着测试人数的增加,IFE的识别效果略好于MFCC;在测试信道改变的情况下,与MFCC相比IFE的稳健性得到了有效的提高。相似文献

7.

感知听觉场景分析的说话人识别

吴迪陶智张晓俊周燕潘欣裕肖仲喆赵鹤鸣《声学学报》2016,41(2):260-272

针对低信噪比说话人识别中缺失数据特征方法鲁棒性下降的问题,提出了一种采用感知听觉场景分析的缺失数据特征提取方法。首先求取语音的缺失数据特征谱,并由语音的感知特性求出感知特性的语音含量。含噪语音经过感知特性的语音增强和对其语谱的二维增强后求解出语音的分布,联合感知特性语音含量和缺失强度参数提取出感知听觉因子。再结合缺失数据特征谱把特征的提取过程分解为不同听觉场景进行区分地分析和处理,以增强说话人识别系统的鲁棒性能。实验结果表明,在-10 dB到10 dB的低信噪比环境下,对于4种不同的噪声,提出的方法比5种对比方法的鲁棒性均有提高,平均识别率分别提高26.0%,19.6%,12.7%,4.6%和6.5%。论文提出的方法,是一种在时-频域中寻找语音鲁棒特征的方法,更适合于低信噪比环境下的说话人识别。相似文献

8.

文本无关说话人识别的全特征矢量集模型及互信息评估方法 总被引：1，自引：0，他引：1

俞一彪王朔中《声学学报》2005,(6)

提出了一种文本无关说话人识别的全特征矢量集模型及互信息评估方法,该模型通过对一组说话人语音数据在特征空间进行聚类而形成,全面地反映了说话人语音的个性特征。对于说话人语音的似然度计算与判决,则提出了一种互信息评估方法,该算法综合分析距离空间和信息空间的似然度,并运用最大互信息判决准则进行识别判决。实验分析了线性预测倒谱系数(LPCC)和Mel频率倒谱系数(MFCC)两种情况下应用全特征矢量集模型和互信息评估算法的说话人识别性能,并与高斯混合模型进行了比较。结果表明:全特征矢量集模型和互信息评估算法能够充分反映说话人语音特征,并能够有效评估说话人语音特征相似程度,具有很好的识别性能,是有效的。相似文献

9.

用于语音识别置信度的发音特征各维度分析和子集优化

孙艳庆张晴晴周瑜赵庆卫颜永红《声学学报》2011,36(3)

提出了基于发音特征单个维度的置信度算法,并基于此对发音特征的各个维度展开分析.分析不仅验证了融合的必要性,同时也展示了发音特征各维度之间以及和隐马尔可夫模型之间的大量冗余.为了去除冗余,提出了用子集选择的方法进行优化.对比所有都用的情况,基于发音特征紧凑子集的语音识别置信度估计,在等错率上取得了12.7%的相对下降.把经过优化后的基于发音特征的语音识别置信度估计和基于隐马尔可夫模型的语音识别置信度进行融合,在保持集内识别率不损失的前提下,显著提高了语法外输入测试的拒识性能:在相同参数下,在开发集和测试集上分别取得了34%和35.3%的显著改善. 相似文献

10.

基于过零点间时间间隔对P，T，K，Z，ZH，H等六个声母的识别

欧贵文《声学学报》1994,(3)

语音波形过零率是一个很重要的语音特征．它通常是语音端点判别和音素粗分类的基本要素．但是，它也有不稳定的一面，所以很少看到有人将它用到语音细分类和识别中．本文提出了把一串过零点间时间间隔作为辨认普通话声母的语音特征的方法．本文做了以过零点间时间间隔作为ＨＭＭ的输入符号，对送气塞音类声母Ｐ、Ｔ、Ｋ，不送气塞擦音Ｚ、ＺＨ和喉擦音Ｈ等六个声母进行辨认实验．在连机的环境下，我们取得７８％的声母正确辨认率．以过零点间时间间隔作为语音特征的优点是计算简单，易于实现．此外，它可以不经转换直接作为离散ＨＭＭ的输入符号．本文介绍过零点间时间间隔的计算方法和使用ＨＭＭ对上述六个声母进行识别的实验过程．相似文献

11.

基于线性调频Z变换和短波语音通话的飞机类型识别研究

聂东虎章佳荣于洋李雪耀《声学学报》2013,38(3):389-396

研究用短波语音通话携带的飞机舱室噪声对飞机类型进行识别的方法。分析了飞机舱室内噪声在短波信道和语音通话干扰下的物理特性,定义了估计语音段的飞机噪声信噪比的公式,提出了自适应的抑制语音增强飞机噪声的模型,通过CZT变换分别提取目标信号不同频段的功率谱密度级特征,并设计了用支持向量机进行分类识别的二叉分类树。对8类现场实测数据进行实验:增强后语音段的平均信噪比提高约22 dB,分类树对语音应答间隔噪声、语音段信号和增强后的信号的平均识别率分别为82.79%,15.25%,50.18%。实验表明:应答间隔噪声可用于飞机类型识别;语音抑制算法带来较大的信噪比和识别率增益,证明语音段蕴含有助于飞机类型识别的重要信息,可为后续的研究奠定基础。相似文献

12.

共振峰编辑法区别鼻化元音中口、鼻音共振峰的实证探究*

下载免费PDF全文

赵擎华杨俊杰《应用声学》2021,40(6):937-945

为解决司法话者识别中利用鼻化元音构建元音声学空间图时如何准确判别鼻化元音的口、鼻音共振峰的问题。本文通过计算机语音工作站对语音样本的共振峰进行编辑操作，利用生成的语音样本构建不同的对照组分别进行听辨。结果表明，口音、鼻音共振峰分别被衰减后的语音变化特点呈现一定规律，使用此方法可以准确区分鼻化元音的口、鼻共振峰的阶次。本文建立的“共振峰编辑”与“听觉感知”相结合的判别方法，可以为司法话者识别及语音感知、识别等相关领域通过构建元音声学空间图进行声学特征研究的模型提供口音、鼻音共振峰的判别依据。相似文献

13.

改进LVAMDF及综合多因素基音检测算法

薛帅强陈波陈菲 《应用声学》2016,24(4):253-256

在对语音信号静音、清音、浊音划分的基础上,针对语音信号周期特征明显段分布随机性问题,提出改进的变长度平均幅度差函数LVAMDF及综合多因素基音检测算法,该算法对语音信号进行周期特征明显段和周期特征不明显段的聚类划分,同时,获取周期特征明显语音段的基音周期,针对少数基音周期划分倍频或半频问题,提出识别、修正方法,其识别、修正率极高。在对大量真实语音处理中,能够精确的检测出语音特征明显段的基音周期端点,基本没有倍频和半频划分,并且和AMDF、ACF算法作了对比。相似文献

14.

汉语人机对话系统语音试验材料集设计

孙金城李昌立莫福源李彤倪宏《声学学报》1993,(6)

根据汉语语音特点,为汉语人机对话系统设计了反映汉语语音主要特征、现象的语音试验材料集,作为汉语人机对话系统语音知识库的素材,用于研究语音合成规则、训练语音识别模板等.语音材料的选择以全面、典型、适量为原则,以反映汉语语音的韵律特征和音色特征的变化规律为目的,分别以声调及其组合、声韵组合为基础选择语音材料.全部材料已用数字录音机录制完毕. 相似文献

15.

利用语音学知识和神经网络识别非特定人的复合元音

下载免费PDF全文

蔡德和《应用声学》1996,15(1):39-45

本文主要研究：以音素为识别基元，运用语音学知识，对非特定人的普通话复合元音进行识别。其特点是音素识别由神经网络（ＮＮ）完成，为了便于利用语音知识ＮＮ输入层的刺激采用语音的功率谱，用单元音训练的ＮＮ识另非特定人的普通话复合元音，识别率是５４％。而运用语音学知识后，其识别率提高到９０％。相似文献

16.

应用支持向量机和人工神经网络对大气次声信号识别的初步实验 总被引：1，自引：1，他引：0

吴涢晖邹士亚庞新良陈晓雷《应用声学》2020,39(2):216-222

语音情感识别在许多领域具有重要研究价值,不同声学情感特征在使用不同分类器进行分类时,识别效果具有明显差异。与语音情感有关的声学特征包括谱特征、韵律学特征、音质特征。该文提出一种特征融合的方法,将3种声学特征中具有最好识别能力的特征进行融合:保留在实验中表现稳定且有较高识别率的谱特征的全部特征,提取韵律学、音质特征的相关统计量作为辅助特征融合于谱特征中。实验表明,该文所提出的融合特征在使用同一分类器进行分类时,识别率优于单一特征;当使用不同分类器时,融合特征依然具有较好的识别能力,且识别性能稳定,3个数据集上均有较好的识别率,基本实现跨数据集识别。相似文献

17.

基于变分模态分解的语音情感识别方法*

下载免费PDF全文

王玮蔚张秀再《应用声学》2019,38(2):237-244

针对传统语音情感特征参数在进行情感分类时性能不佳的问题,该文提出了一种基于变分模态分解的语音情感识别方法。情感语音信号首先由变分模态分解提取固有模态函数,然后对所选主导固有模态函数进行重新聚合,再提取梅尔倒谱系数和各固有模态函数的希尔伯特边际谱。为了验证该文提出的特征性能,选用两种语音数据库(EMODB、RAVDESS)进行实验,按该文方法提取特征后使用极限学习机进行语音情感分类识别。实验结果表明:相比基于经验模态分解和集合经验模态分解的语音情感特征,该文提出的特征有更好的识别性能,验证了该方法的实用性。相似文献

18.

卷积噪声环境下语音信号鲁棒特征提取

吕钊吴小培张超李密《声学学报》2010,35(4):465-470

提出了一种基于独立分量分析(ICA)的语音信号鲁棒特征提取算法,用以解决在卷积噪声环境下语音信号的训练与识别特征不匹配的问题。该算法通过短时傅里叶变换将带噪语音信号从时域转换到频域后,采用复值ICA方法从带噪语音的短时谱中分离出语音信号的短时谱,然后根据所得到的语音信号短时谱计算美尔倒谱系数(MFCC)及其一阶差分作为特征参数。在仿真与真实环境下汉语数字语音识别实验中,所提算法相比较传统的MFCC其识别正确率分别提升了34.8%和32.6%。实验结果表明基于ICA方法的语音特征在卷积噪声环境下具有良好的鲁棒性。相似文献

19.

多语种情感语音的韵律特征分析和情感识别研究 总被引：2，自引：1，他引：2

姜晓庆田岚崔国辉《声学学报》2006,31(3):217-221

韵律特征参数的变化是语音信号中情感信息主要体现。为了研究基于少量韵律特征的多语种语音样本情感识别的可行性,以提高情感识别系统对语种信息的鲁棒性,实验选取七种典型的情感状态,对指定句式下同一说话人在汉语、英语、日语多语种语音样本中的基频、能量、时间等韵律参数的动态特性进行统计分析。统计结果表明,不同语种情感语音样本的各种韵律特征参数的变化结构有较好的一致性。在这一结论基础上,利用主元素分析方法(PCA)对多语种混合样本进行了初步的情感识别实验,平均错误率为27．74％,最低识别错误率为11％。可见,通过基本的韵律参数可以实现对几种基本情感忽略语种信息的初步有效识别。相似文献

20.

基于小波变换的重叠语音基频提取及声调识别 总被引：6，自引：1，他引：5

赵鹤鸣周旭东金延庆翁桂荣《声学学报》1999,(1)

提出一种基于小波变换的重叠语音基频提取及声调识别的方法。利用小波的伸缩和时移特性，通过对重叠语音做多尺度的小波变换，可以有效地提取重叠语音中各自的基音频率，并在此基础上实现声调的识别。实验表明，此方法是有效的，是重叠语音基频提取及声调识别的一种新途径。相似文献