期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于修正Mel域掩蔽模型和无语音概率的耳语音增强 总被引：1，自引：0，他引：1

陶智赵鹤鸣吴迪陈大庆张晓俊《声学学报》2009,34(4):370-377

提出了一种基于修正Mel域听觉掩蔽模型和无语音概率的耳语音增强方法。该方法根据耳语音的发音特点对Mel频率进行修正,对每一帧耳语音信号进行Mel域频带滤波,同时通过无语音概率(SAP)动态地确定每个频带的听觉掩蔽阈值,对不同的听觉掩蔽阈值自适应地调整谱减系数来进行耳语音增强。对增强后的耳语音进行客观和主观测试,结果表明,该方法与其它谱减法相比,能将残留噪声和背景噪声控制在人耳掩蔽阈值下,取得更小的语音失真,主观听觉也得到了很大的改善。相似文献

2.

时频结合自适应阈值小波包消噪算法

下载免费PDF全文

田玉静董玉民左红伟《应用声学》2010,29(4):256-262

在充分考虑人耳听觉特性和噪声统计特性的基础上,提出一种时频结合Bark尺度自适应阈值的语音消噪算法,在Bark频域上自适应调整增强系数可以较准确地进行阈值判定。仿真实验验证,时频结合算法在低信噪比输入情况下较传统语音降噪方法具有明显优势,其在消除高斯白噪声的同时有效降低了语音损失,可获得最大信噪比,谱失真测度最小,增强语音的MOS(Mean Opinion Score)评分明显提高,具有较好的听觉效果。相似文献

3.

小波包自适应阈值语音降噪新算法

下载免费PDF全文

田玉静左红伟董玉民王超《应用声学》2011,30(1):72-80

为了克服低信噪比输入下,语音增强造成语音清音中的弱分量损失,造成重构信号包络失真的问题。论文提出了一种新的语音增强方法。该方法根据语音感知模型,采用不完全小波包分解拟合语音临界频带,并对语音按子带能量进行清浊音区分处理,在阈值计算上,提出了一种清浊音分离,基于子带信号能量的小波包自适应阈值算法。通过仿真实验,客观评测和听音测试表明,该算法在低信噪比输入时较传统算法,能够更加有效地减少重构信号包络失真,在不损伤语音清晰度和自然度的前提下,使输出信噪比明显提高。将该算法与能量谱减法结合,进行二次增强能进一步提高降噪输出的语音质量。相似文献

4.

感知听觉场景分析的说话人识别

吴迪陶智张晓俊周燕潘欣裕肖仲喆赵鹤鸣《声学学报》2016,41(2):260-272

针对低信噪比说话人识别中缺失数据特征方法鲁棒性下降的问题,提出了一种采用感知听觉场景分析的缺失数据特征提取方法。首先求取语音的缺失数据特征谱,并由语音的感知特性求出感知特性的语音含量。含噪语音经过感知特性的语音增强和对其语谱的二维增强后求解出语音的分布,联合感知特性语音含量和缺失强度参数提取出感知听觉因子。再结合缺失数据特征谱把特征的提取过程分解为不同听觉场景进行区分地分析和处理,以增强说话人识别系统的鲁棒性能。实验结果表明,在-10 dB到10 dB的低信噪比环境下,对于4种不同的噪声,提出的方法比5种对比方法的鲁棒性均有提高,平均识别率分别提高26.0%,19.6%,12.7%,4.6%和6.5%。论文提出的方法,是一种在时-频域中寻找语音鲁棒特征的方法,更适合于低信噪比环境下的说话人识别。相似文献

5.

用于无监督语音降噪的听觉感知鲁棒主成分分析法 总被引：2，自引：0，他引：2

下载免费PDF全文

闵刚邹霞韩伟张雄伟谭薇《声学学报》2017,42(2):246-256

针对现有稀疏低秩分解语音降噪方法对人耳听觉感知特性应用不充分、语音失真易被感知的问题,提出了一种用于语音降噪的听觉感知鲁棒主成分分析法。由于耳蜗基底膜对于频率感知具有非线性特性,该方法采用耳蜗谱图作为语噪分离的基础。此外,选用符合人耳听觉感知特性的板仓-斋田距离度量作为优化目标函数,在稀疏低秩建模过程中引入非负约束以使分解分量更符合实际物理含义,并在交替方向乘子法框架下推导了具有闭合解形式的迭代优化算法。文中方法在语音降噪时是完全无监督的,无需预先训练语音或噪声模型。多种类型噪声和不同信噪比条件下的仿真实验验证了该方法的有效性,噪声抑制效果较目前同类算法更为显著,且降噪后语音的可懂度和总体质量有所提高、至少相当。相似文献

6.

提高耳语音可懂度的非对称压缩语音增强方法

周健郑文明王青云赵力《声学学报》2014,39(4):501-508

提出两种基于非对称代价函数的耳语音增强算法,将语音增强过程中的放大失真和压缩失真区分对待。Modified ItakuraSaito (MIS)算法对放大失真给予更多的惩罚,而Kullback-Leibler (KL)算法则对压缩失真给予更多的惩罚。实验结果表明,在低于—6 dB的低信噪比情况中,经MIS算法增强后的耳语音的可懂度相比传统算法有显著提高;而KL算法则获得了同最小均方误差语音增强算法近似的可懂度提高效果,证实了耳语音中的放大失真和压缩失真对于耳语音可懂度的影响并不相同,低信噪比时较大的压缩失真有助于提高耳语音可懂度,而高信噪比时的压缩失真对耳语音可懂度影响较小。相似文献

7.

基于听觉模型的耳语音的声韵切分 总被引：5，自引：0，他引：5

下载免费PDF全文

丁慧栗学丽徐柏龄《应用声学》2004,23(2):20-25,44

本文分析了耳语音的特点，并根据生理声学及心理声学的基本理论与实验资料，提出了一种利用听觉模型来进行耳语音声韵切分的方法。这种适用于耳语音声韵切分的听觉感知模型主要分为四个层次：耳蜗对声音频率的分解机理；听觉系统的时域和频域非线性变化；中枢神经系统的侧抑制机理。这种模型能反映在噪声环境下人对低能量语音的听觉感知特性，因而适于耳语音识别，在耳语音声韵母切分实验中得到了满意的结果。相似文献

8.

听觉频域掩蔽效应的自适应β阶贝叶斯感知估计语音增强算法

下载免费PDF全文

王玥李平崔杰《声学学报》2013,38(4):501-508

为了在噪声抑制和语音失真中之间寻找最佳平衡,提出了一种听觉频域掩蔽效应的自适应β阶贝叶斯感知估计语音增强算法,以期提高语音增强的综合性能。算法利用了人耳的听觉掩蔽效应,根据计算得到的频域掩蔽阈自适应调整β阶贝叶斯感知估计语音增强算法中的β值,从而仅将噪声抑制在掩蔽阈之下,保留较多的语音信息,降低语音失真。并分别用客观和主观评价方式,对所提出的算法的性能进行了评估,并与原来基于信噪比的自适应β阶贝叶斯感知估计语音增强算法进行了比较。结果表明,频域掩蔽的β阶贝叶斯感知估计方法的综合客观评价结果在信噪比为-10 dB至5 dB之间时均高于基于信噪比的自适应β阶贝叶斯感知估计语音增强算法。主观评价结果也表明频域掩蔽的β阶贝叶斯感知估计方法能在尽量保留语音信息的同时,较好的抑制背景噪声。相似文献

9.

低信噪比下采用感知语谱结构边界参数的语音端点检测算法

吴迪赵鹤鸣陶智张晓俊肖仲喆许宜申《声学学报》2014,39(3):392-399

提出了一种采用感知语谱结构边界参数(PSSB)的语音端点检测算法,用于在低信噪比环境下的语音信号预处理。在对含噪语音进行基于听觉感知特性的语音增强之后,针对语音信号的连续分布特性与残留噪声的随机分布特性之间的不同点,对增强后语音的时-频语谱进行二维增强,从而进一步突出连续分布的纯净语音的语谱结构。通过对增强后语音语谱结构的二维边界检测,提出PSSB参数,并用于端点检测。实验结果表明,在白噪声-10 dB到10 dB的各种信噪比环境下,采用PSSB参数的端点检测算法,相对于其它端点检测算法,更有效地检测出语音的端点。在-10 dB的极低信噪比下,提出的方法仍然有75.2%的正确率。采用PSSB参数的端点检测算法,更适合于低信噪比白噪声环境下的语音端点检测。相似文献

10.

听觉模型反演方法及其应用

赵鹤鸣王永琦陈雪勤《声学学报》2005,(6)

听觉模型已应用于语音信号处理的许多方面,并已取得了较好的结果。论文根据目前应用较为广泛的听觉模型,提出了模型中各部分的逆变换。首先通过对自相关图谱逆变换并经迭代运算重构相位信息恢复神经发放率,再经半波整流逆运算恢复负半部分信号,最后对描述内毛细胞、突触模型的相关方程进行逆运算和Gammatone逆滤波,构成整个听觉模型的反演方法。作为应用论文提出了一种基于听觉模型逆变换的含噪语音增强方法。实验结果表明,该方法对含噪语音有很好的降噪效果,特别是当信噪比较低时,该方法较常用的方法更为有效。论文提出的听觉模型逆变换方法可应用于语音增强等领域。相似文献

11.

一种自适应变阶谱减降噪算法在电子耳蜗中的应用

闵姝君田岚《声学学报》2011,36(3)

由于传统谱减语音增强存在残留的"音乐噪声",因此基于传统谱减法降噪的电子耳蜗(CI)感知的声音品质也会受到影响.为提高CI的抗噪性,本文提出了一种自适应变阶谱减算法,并将该方法应用于电子耳蜗的语音增强中.根据CI电极对应的频带关系,该算法先对采集的带噪声音信号功率谱进行Bark子带划分,并在每个Bark子带中根据信噪比的变化进行谱减阶数和系数的自适应调节,使各子带噪声更均衡地去除,基本消除了传统方法存在的"音乐噪声".基于该算法的电子耳蜗ACE仿真实验及测听结果表明,与传统谱减法相比,改进的算法能更好地抑制背景噪声和残留噪声,仿真得到的CI合成音感知更好和更清晰. 相似文献

12.

时频字典学习的单通道语音增强算法

下载免费PDF全文

黄建军张雄伟张亚非邹霞《声学学报》2012,37(5):539-547

针对以往语音增强算法在非平稳噪声环境下性能急剧下降的问题,基于时频字典学习方法提出了一种新的单通道语音增强算法。首先,提出采用时频字典学习方法对噪声的频谱结构的先验信息进行建模,并将其融入到卷积非负矩阵分解的框架下;然后,在固定噪声时频字典情况下,推导了时变增益和语音时频字典的乘性迭代求解公式;最后,利用该迭代公式更新语音和噪声的时变增益系数以及语音的时频字典,通过语音时频字典和时变增益的卷积运算重构出语音的幅度谱并用二值时频掩蔽方法消除噪声干扰。实验结果表明,在多项语音质量评价指标上,本文算法都取得了更好的结果。在非平稳噪声和低信噪比环境下,相比于多带谱减法和非负稀疏编码去噪算法,本文算法更有效地消除了噪声,增强后的语音具有更好的质量。相似文献

13.

基于掩蔽特性的噪声环境下语音识别新特征 总被引：4，自引：1，他引：3

蒋文建韦岗《声学学报》2001,(6)

语音识别系统的识别率在噪声环境中下降很大。本文根据人耳的听觉特性,提出一种基于人耳听觉掩蔽特性的抗噪声特征提取方法。该方法先求取噪声语音的掩蔽特性,在此基础上再计算Ｍｅｌ倒谱系数用于语音识别。通过对ＴＩＭＩＴ数据包的０～９十个英语数字在ＮｏｉｓｅＸ９２的各种噪声下进行了识别试验。其中在信噪比０ｄＢ条件下,在３种噪声条件下识别率平均提高１５２％,实验表明新方法对于各种噪声环境下的识别率有显著提高。相似文献

14.

听觉模拟的语音增强方法 总被引：2，自引：0，他引：2

陆生礼时龙兴余崇智魏荣爵《声学学报》1996,(6)

本文通过分析听觉系统的信号提取方法，提出了适合于信号提取的动态多阈值的概念，并以此提出了实现语音增强的方法。实验结果表明，与传统的语音增强方法相比，听觉模拟的语音增强方法有更好的增强效果。相似文献

15.

U-net网络中融合多头注意力机制的单通道语音增强EI北大核心CSCD

下载免费PDF全文

范君怡杨吉斌张雄伟郑昌艳《声学学报》2022,47(6):703-716

在低信噪比和突发背景噪声条件下,已有的深度学习网络模型在单通道语音增强方面效果并不理想,而人类可以利用语音的长时相关性对不同的语音信号形成综合感知。因此刻画语音的长时依赖关系有助于改进低信噪比和突发背景噪声下的增强性能。受该特性的启发,提出一种融合多头注意力机制和U-net深度网络的增强模型TU-net,实现基于时域的端到端单通道语音增强。TU-net网络模型采用U-net网络的编解码层对带噪语音信号进行多尺度特征融合,并利用多头注意力机制实现双路径Transformer,用于计算语音掩模,更好地建模长时相关性。该模型在时域、时频域和感知域计算损失函数,并通过加权组合损失函数指导训练。仿真实验结果表明,TU-net在低信噪比和突发背景噪声条件下增强语音信号的语音质量感知评估(PESQ)、短时客观可懂度(STOI)和信噪比增益等多个评价指标都优于同类的单通道增强网络模型,且保持相对较少的网络模型参数。相似文献

16.

基于多窗谱的心理声学语音增强 总被引：5，自引：2，他引：5

吴红卫吴镇扬赵力《声学学报》2007,32(3):275-281

与传统的周期谱图相比,多窗谱具有更小的估计方差。从含噪语音的多窗谱对噪声及噪声与含噪语音之比(NNSR)进行估计,用基于NNSR的幅度谱减实现用于计算人耳掩蔽阈值的预增强语音,用集成了人耳掩蔽阈值的心理声学加权规则实现最终的增强语音。考虑到多窗谱的特点对掩蔽偏移量进行了修正,修正后的重建语音,其客观测量指标修正巴克谱测度比修正前有一定的改进。再对心理声学加权规则作最大值小于1的限制,则输入信噪比越大(0 dB以上),分段信噪比和总体信噪比提高得越多。非正式试听表明重建语音失真较小,背景噪声大大降低,且没有音乐噪声。相似文献

17.

低信噪比下公共场所异常声音声学特征提取

下载免费PDF全文

李伟红王伟冰龚卫国《声学学报》2019,44(5):934-944

为了实现低信噪比下公共场所异常声音声学特征提取,提出经验小波滤波器组用于提取异常声音声学特征。首先,根据等效矩形带宽的人耳听觉特性,得到各滤波器的中心频率,计算出经验小波滤波器组的边界。然后,将边界代入经验小波细节函数和尺度函数中,形成经验小波滤波器组。最后,用经验小波滤波器组分解低信噪比下公共场所异常声音,经分解的各模态归一化对数能量作为异常声音声学特征,用于分类识别。相关实验表明,提出的经验小波滤波器组与典型的语音信号处理及时频信号处理方法相比,在低信噪比(0 dB)的商店、银行、办公室、自动取款机环境下,对异常声音的平均识别率提高了4.75%~37.92%,验证了提出方法的有效性。相似文献

18.

全局谱参数下的耳语说话人状态因子分析

龚呈卉赵鹤鸣陶智张庆芳《声学学报》2014,39(2):281-288

提出了全局谱参数下的耳语说话人状态因子分析方法。首先,根据耳语听辨实验结果,提出导入唤醒度-愉悦度因子对说话人状态进行三级度量;其次,提取耳语音正弦模型、人耳听觉模型下的谱参数,结合其他短时频谱参量,进行轨迹跟踪并计算各参数的全局统计变量,作为特征参数来实现耳语说话人状态的分类。实验结果显示,正弦模型及人耳听觉模型的全局谱参数可将耳语说话人状态因子分类系统的准确率提高至90%。该分类方法及状态因子描述方案提供了耳语音说话人状态分析的有效途径。相似文献

19.

帧同步混合小波包变换模拟听觉模型的语音增强的研究

朱学文杨道淳王炜牟峰徐柏龄《声学学报》2003,(1)

首先介绍了帧同步混合小波包的分析方法。该方法结合了小波包时频窗口可变的特点和STFT的分帧处理形式。它既能够保证语音信号处理中帧长的要求,即可实时处理,义能获得对信号频域上的最佳分解,是一种类似FFT的小波包的快速算法。在此基础上,应用该方法模拟了听觉模型,并运用于语音增强。实验表明,即使在-5 dB低信噪比的条件下,也能获得良好的除噪效果和听觉效果。该方法还可运用于语音的编码、合成和识别等领域。相似文献

20.

汉语耳语音孤立字识别研究 总被引：6，自引：0，他引：6

下载免费PDF全文

杨莉莉林玮徐柏龄《应用声学》2006,25(3):187-192

耳语音识别有着广泛的应用前景,是一个全新的课题.但是由于耳语音本身的特点,如声级低、没有基频等,给耳语音识别研究带来了困难.本文根据耳语音信号发音模型,结合耳语音的声学特性,建立了一个汉语耳语音孤立字识别系统.由于耳语音信噪比低,必须对其进行语音增强处理,同时在识别系统中应用声调信息提高了识别性能.实验结果说明了MFCC结合幅值包络可作为汉语耳语音自动识别的特征参数,在小字库内用HMM模型识别得出的识别率为90.4%. 相似文献