期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

用于自适应波束形成语音增强的球谐域掩蔽函数估计方法 总被引：1，自引：0，他引：1

柯雨璇厉剑彭任华郑成诗李晓东《声学学报》2021,46(1):67-80

提出一种用于球形阵列自适应波束形成的掩蔽函数估计方法。该方法利用包含空间信息的球谐系数提取低维空间向量,并采用复高斯混合模型和深度学习两种方案来估计掩蔽函数,最终利用估计的掩蔽函数设计最小方差无失真响应波束形成器,以达到空域滤波的效果。理论分析和仿真实验证明,对于相同时长的声信号,球谐域掩蔽函数估计方法的计算复杂度比传统阵元域估计方法低了一个数量级。并且在大部分声场环境中,尤其在低信噪比情况下,所提方法的语音质量感知评估测度得分、分段信噪比和短时客观可懂度明显高于阵元域方法,三者最高分别可提升1.31 dB,4.54 dB和35%。另外,实际声学环境的测量实验也验证了所提方法在不影响可懂度的条件下比传统阵元域方法具备更高的降噪量。相似文献

2.

用于自适应波束形成语音增强的球谐域掩蔽函数估计方法

《声学学报：英文版》2021,(1)

提出一种用于球形阵列自适应波束形成的掩蔽函数估计方法。该方法利用包含空间信息的球谐系数提取低维空间向量,并采用复高斯混合模型和深度学习两种方案来估计掩蔽函数,最终利用估计的掩蔽函数设计最小方差无失真响应波束形成器,以达到空域滤波的效果。理论分析和仿真实验证明,对于相同时长的声信号,球谐域掩蔽函数估计方法的计算复杂度比传统阵元域估计方法低了一个数量级。并且在大部分声场环境中,尤其在低信噪比情况下,所提方法的语音质量感知评估测度得分、分段信噪比和短时客观可懂度明显高于阵元域方法,三者最高分别可提升1.31 dB,4.54 dB和35%。另外,实际声学环境的测量实验也验证了所提方法在不影响可懂度的条件下比传统阵元域方法具备更高的降噪量。相似文献

3.

基于Laplace-Gauss模型和简化相位判别的离散余弦变换域语音增强

吴红卫俞一彪吴镇扬《声学学报》2008,33(3):244-251

分析了理想情况下离散余弦变换域中语音信号增益,先验信噪比及后验信噪比之间的关系,用实际数据获得了各种信噪比下增益范围的统计特性。基于语音呈Laplace分布、噪声呈Gauss分布的模型,推导了具有相位特性的增益及先验信噪比的估计公式,通过合理性分析得到了简化的相位判别准则。实验结果表明,在高斯白噪声和F16飞机噪声情况下,简化的相位判别可使低信噪比下的语音增强系统的性能得到较大的改善。相似文献

4.

联合深度编解码网络和时频掩蔽估计的单通道语音增强 总被引：4，自引：1，他引：3

下载免费PDF全文

时文华张雄伟邹霞孙蒙李莉《声学学报》2020,45(3):299-307

提出了一种联合深度编解码神经网络和时频掩蔽估计的语音增强方法。该方法利用深度编解码网络估计时频掩蔽表示,并联合带噪语音的幅度谱学习带噪语音与纯净语音幅度谱之间的非线性映射关系。深度编解码网络采用卷积-反卷积网络结构。在编码端,利用卷积网络的局部感知特性,对带噪语音的时频域结构特征进行建模,提取语音特征,同时抑制背景噪声。在解码端,利用编码端提取到的语音特征逐层恢复局部细节信息并重构语音信号。同时,在编解码端对应层之间引入跳跃连接,以减少由于池化和全连接操作导致的低层细节信息丢失的问题。在TIMIT语音库和不完全匹配噪声集下进行仿真实验,实验结果表明,该方法可以有效抑制噪声,且能较好地恢复出语音细节成分。相似文献

5.

基于听觉模型的耳语音的声韵切分 总被引：5，自引：0，他引：5

下载免费PDF全文

丁慧栗学丽徐柏龄《应用声学》2004,23(2):20-25,44

本文分析了耳语音的特点，并根据生理声学及心理声学的基本理论与实验资料，提出了一种利用听觉模型来进行耳语音声韵切分的方法。这种适用于耳语音声韵切分的听觉感知模型主要分为四个层次：耳蜗对声音频率的分解机理；听觉系统的时域和频域非线性变化；中枢神经系统的侧抑制机理。这种模型能反映在噪声环境下人对低能量语音的听觉感知特性，因而适于耳语音识别，在耳语音声韵母切分实验中得到了满意的结果。相似文献

6.

提高耳语音可懂度的非对称压缩语音增强方法

周健郑文明王青云赵力《声学学报》2014,39(4):501-508

提出两种基于非对称代价函数的耳语音增强算法,将语音增强过程中的放大失真和压缩失真区分对待。Modified ItakuraSaito (MIS)算法对放大失真给予更多的惩罚,而Kullback-Leibler (KL)算法则对压缩失真给予更多的惩罚。实验结果表明,在低于—6 dB的低信噪比情况中,经MIS算法增强后的耳语音的可懂度相比传统算法有显著提高;而KL算法则获得了同最小均方误差语音增强算法近似的可懂度提高效果,证实了耳语音中的放大失真和压缩失真对于耳语音可懂度的影响并不相同,低信噪比时较大的压缩失真有助于提高耳语音可懂度,而高信噪比时的压缩失真对耳语音可懂度影响较小。相似文献

7.

面向语音增强的序贯隐马尔可夫模型时频语音存在概率估计

许春冬夏日升应冬文李军锋《声学学报》2014,39(5):647-654

语音存在概率的估计是语音增强的核心技术之一,针对传统的存在概率估计方法是启发式的,没有把存在概率的估计统一到一个理论框架之中,不能保证估计最优,提出了一种基于序贯隐马尔可夫模型(SHMM)的存在概率估计方法,在每一子带上构建一个SHMM模型描述对数功率谱包络的时间序列,把谱包络序列看作一个在语音和噪声状态之间转移的动态一阶马尔可夫链,采用单高斯函数构建每一状态的概率模型,语音状态的后验概率即为语音信号的存在概率。为了满足算法实时性要求,SHMM参数估计简化为一阶回归过程,根据极大似然准则逐帧更新模型参数。实验表明:SHMM所描述的时序相关性对存在概率的估计起到关键作用,它优于一般的启发式估计方法;SHMM算法的语音增强分段信噪比(SegSNR)和对数谱失真(LSD)性能优于经典的改进型最小统计量控制递归平均(IMCRA)算法。相似文献

8.

基于高斯-拉普拉斯-伽玛模型和人耳听觉掩蔽效应的信号子空间语音增强算法

程宁刘文举《声学学报》2009,34(6):554-565

针对信号子空间语音增强算法中的子空间选择和线性滤波器中噪声功率谱和拉格朗日乘子的估计问题,用高斯、拉普拉斯和伽玛模型描述了语音的分布,提出了利用目标语音概率最大化来确定信号子空间维度的方法。在噪声子空间上,利用条件概率估计出噪声功率谱。接着,为了合理地折中增强语音中的残余噪声和语音畸变,提出了一种基于人耳听觉掩蔽效应的拉格朗日乘子估计方法。实验证明,在多项语音质量评价指标上,所提算法都取得了更好的结果。所提的信号子空间算法比传统的信号子空间算法更有效地消除了噪声,使得恢复的语音具有更好的质量。相似文献

9.

联合精确比值掩蔽与深度神经网络的单通道语音增强方法

下载免费PDF全文

柏浩钧张天骐刘鉴兴叶绍鹏《声学学报》2022,47(3):394-404

针对目前有监督语音增强忽略了纯净语音、噪声与带噪语音之间的幅度谱相似性对增强效果影响等问题,提出了一种联合精确比值掩蔽(ARM)与深度神经网络(DNN)的语音增强方法。该方法利用纯净语音与带噪语音、噪声与带噪语音的幅度谱归一化互相关系数,设计了一种基于时频域理想比值掩蔽的精确比值掩蔽作为目标掩蔽;然后以纯净语音和噪声幅度谱为训练目标的DNN为基线,通过该DNN的输出来估计目标掩蔽,并对基线DNN和目标掩蔽进行联合优化,增强语音由目标掩蔽从带噪语音中估计得到;此外,考虑到纯净语音与噪声的区分性信息,采用一种区分性训练函数代替均方误差(MSE)函数作为基线DNN的目标函数,以使网络输出更加准确。实验表明,区分性训练函数提升了基线DNN以及整个联合优化网络的增强效果;在匹配噪声和不匹配噪声下,相比于其它常见DNN方法,本文方法取得了更高的平均客观语音质量评估(PESQ)和短时客观可懂度(STOI),增强后的语音保留了更多语音成分,同时对噪声的抑制效果更加明显。相似文献

10.

一种基于非锐化掩蔽模型的无偏振片成像技术

高畅刘志强刘豪马嘉成叶茂《光学学报》2024,(3):95-101

液晶透镜是一种新兴的可以电控调焦的液晶器件,无需机械移动就可以实现对焦、变焦和深度测量,因此被广泛应用于摄影摄像、显微成像、虚拟现实等领域。提出一种优化的液晶透镜无偏振片成像技术。该技术结合非锐化掩蔽模型,通过分析图像像素值的变化,估算得到环境光中寻常光分量的占比,并使用非对焦图像和对焦图像进行处理,获得高质量图像。实验结果表明,优化后的技术能够有效增强图像对比度,获得优质图像。相似文献

11.

A method of whispered speech enhancement based on speech absence probability and modified mel-domain masking model

TAO Zhi ZHAO Heming WU Di CHEN Daqing ZHANG Xiaojun 《声学学报：英文版》2011,30(3):345-357

Whispered speech enhancement using auditory masking model in modified Meldomain and Speech Absence Probability(SAP)was proposed.In light of the phonation characteristic of whisper,we modify the Mel-frequency Scaling model.Whispered speech is filtered by the proposed model.Meanwhile,the value of masking threshold for each frequency band is dynamically determined by speech absence probability.Then whispered speech enhancement is conducted by adaptively rectifying the spectrum subtraction coefficients using different masking threshold values.Results of objective and subjective tests on the enhanced whispered signal show that compared with other methods;the proposed method can enhance whispered signal with better subjective auditory quality and less distortion by reducing the music noise and background noise under the masking threshold value. 相似文献

12.

Speech enhancement using the modified phase-opponency model

Deshmukh OD Espy-Wilson CY Carney LH 《The Journal of the Acoustical Society of America》2007,121(6):3886-3898

In this paper we present a model called the Modified Phase-Opponency (MPO) model for single-channel speech enhancement when the speech is corrupted by additive noise. The MPO model is based on the auditory PO model, proposed for detection of tones in noise. The PO model includes a physiologically realistic mechanism for processing the information in neural discharge times and exploits the frequency-dependent phase properties of the tuned filters in the auditory periphery by using a cross-auditory-nerve-fiber coincidence detection for extracting temporal cues. The MPO model alters the components of the PO model such that the basic functionality of the PO model is maintained but the properties of the model can be analyzed and modified independently. The MPO-based speech enhancement scheme does not need to estimate the noise characteristics nor does it assume that the noise satisfies any statistical model. The MPO technique leads to the lowest value of the LPC-based objective measures and the highest value of the perceptual evaluation of speech quality measure compared to other methods when the speech signals are corrupted by fluctuating noise. Combining the MPO speech enhancement technique with our aperiodicity, periodicity, and pitch detector further improves its performance. 相似文献

13.

基于听觉掩蔽效应和Bark子波变换的语音增强 总被引：19，自引：3，他引：19

陶智赵鹤鸣龚呈卉《声学学报》2005,30(4):367-372

提出了一种适用于低信噪比下的提高语音的听觉效果的语音增强方法。该方法在谱减法的基础上有两个特点:首先减参数是根据人耳听觉掩蔽效应提出的且是自适应的;其次采用了与人耳听觉系统特性更为适应的Bark子波变换方法对增强前后的语音进行分析。对该算法进行了客观和主观测试,结果表明:与谱减法相比对低信噪比的语音信号,(1)能更好地抑制残留噪声和背景噪声,(2)增强后的语音具有更好的清晰度和可懂度。相似文献

14.

自适应平滑周期图语音增强研究 总被引：2，自引：0，他引：2

郑成诗李晓东陈佳路田静《声学学报》2007,32(5):461-467

提出基于功率谱结构特征的频带间自适应平滑周期图,解决周期图估计的频率分辨率和方差的矛盾,并应用于语音增强算法的幅度谱减法。测试结果表明,自适应平滑周期图谱减法对于各种功率谱结构特征的噪声,在平均段信噪比提高、平均对数谱距离等性能指标上优于其它周期图估计方法的谱减法。相似文献

15.

面向语音增强的约束序贯高斯混合模型噪声功率谱估计 总被引：1，自引：0，他引：1

下载免费PDF全文

许春冬张震战鸽应冬文李军锋颜永红《声学学报》2017,42(5):633-640

提出了一种基于极大似然的噪声对数功率谱估计方法,采用高斯混合模型对每一个频带上的功率谱包络构建统计模型,将时序包络划分为语音和非语音类,它们分别对应于高斯混合模型的两个高斯分量,描述语音和非语音的统计分布,其中非语音高斯分量的均值即为噪声功率谱的最优估计.采用序贯学习的方法,在极大似然准则下逐帧更新模型参数,并逐帧给出噪声功率谱的最优估计值。此外,由于序贯更新过程中语音信号长时缺失,容易导致模型失稳,提出了一种在线的最小描述长度准则(MDL)来判断语音信号是否长时缺失,从而保证了模型的稳定性.实验表明,算法性能整体优于经典的MS和IMCRA算法。相似文献