共查询到15条相似文献,搜索用时 62 毫秒
1.
提出一种用于球形阵列自适应波束形成的掩蔽函数估计方法。该方法利用包含空间信息的球谐系数提取低维空间向量,并采用复高斯混合模型和深度学习两种方案来估计掩蔽函数,最终利用估计的掩蔽函数设计最小方差无失真响应波束形成器,以达到空域滤波的效果。理论分析和仿真实验证明,对于相同时长的声信号,球谐域掩蔽函数估计方法的计算复杂度比传统阵元域估计方法低了一个数量级。并且在大部分声场环境中,尤其在低信噪比情况下,所提方法的语音质量感知评估测度得分、分段信噪比和短时客观可懂度明显高于阵元域方法,三者最高分别可提升1.31 dB,4.54 dB和35%。另外,实际声学环境的测量实验也验证了所提方法在不影响可懂度的条件下比传统阵元域方法具备更高的降噪量。 相似文献
2.
《声学学报:英文版》2021,(1)
提出一种用于球形阵列自适应波束形成的掩蔽函数估计方法。该方法利用包含空间信息的球谐系数提取低维空间向量,并采用复高斯混合模型和深度学习两种方案来估计掩蔽函数,最终利用估计的掩蔽函数设计最小方差无失真响应波束形成器,以达到空域滤波的效果。理论分析和仿真实验证明,对于相同时长的声信号,球谐域掩蔽函数估计方法的计算复杂度比传统阵元域估计方法低了一个数量级。并且在大部分声场环境中,尤其在低信噪比情况下,所提方法的语音质量感知评估测度得分、分段信噪比和短时客观可懂度明显高于阵元域方法,三者最高分别可提升1.31 dB,4.54 dB和35%。另外,实际声学环境的测量实验也验证了所提方法在不影响可懂度的条件下比传统阵元域方法具备更高的降噪量。 相似文献
3.
4.
提出了一种联合深度编解码神经网络和时频掩蔽估计的语音增强方法。该方法利用深度编解码网络估计时频掩蔽表示,并联合带噪语音的幅度谱学习带噪语音与纯净语音幅度谱之间的非线性映射关系。深度编解码网络采用卷积-反卷积网络结构。在编码端,利用卷积网络的局部感知特性,对带噪语音的时频域结构特征进行建模,提取语音特征,同时抑制背景噪声。在解码端,利用编码端提取到的语音特征逐层恢复局部细节信息并重构语音信号。同时,在编解码端对应层之间引入跳跃连接,以减少由于池化和全连接操作导致的低层细节信息丢失的问题。在TIMIT语音库和不完全匹配噪声集下进行仿真实验,实验结果表明,该方法可以有效抑制噪声,且能较好地恢复出语音细节成分。 相似文献
5.
6.
提出两种基于非对称代价函数的耳语音增强算法,将语音增强过程中的放大失真和压缩失真区分对待。Modified ItakuraSaito (MIS)算法对放大失真给予更多的惩罚,而Kullback-Leibler (KL)算法则对压缩失真给予更多的惩罚。实验结果表明,在低于—6 dB的低信噪比情况中,经MIS算法增强后的耳语音的可懂度相比传统算法有显著提高;而KL算法则获得了同最小均方误差语音增强算法近似的可懂度提高效果,证实了耳语音中的放大失真和压缩失真对于耳语音可懂度的影响并不相同,低信噪比时较大的压缩失真有助于提高耳语音可懂度,而高信噪比时的压缩失真对耳语音可懂度影响较小。 相似文献
7.
语音存在概率的估计是语音增强的核心技术之一,针对传统的存在概率估计方法是启发式的,没有把存在概率的估计统一到一个理论框架之中,不能保证估计最优,提出了一种基于序贯隐马尔可夫模型(SHMM)的存在概率估计方法,在每一子带上构建一个SHMM模型描述对数功率谱包络的时间序列,把谱包络序列看作一个在语音和噪声状态之间转移的动态一阶马尔可夫链,采用单高斯函数构建每一状态的概率模型,语音状态的后验概率即为语音信号的存在概率。为了满足算法实时性要求,SHMM参数估计简化为一阶回归过程,根据极大似然准则逐帧更新模型参数。实验表明:SHMM所描述的时序相关性对存在概率的估计起到关键作用,它优于一般的启发式估计方法;SHMM算法的语音增强分段信噪比(SegSNR)和对数谱失真(LSD)性能优于经典的改进型最小统计量控制递归平均(IMCRA)算法。 相似文献
8.
针对信号子空间语音增强算法中的子空间选择和线性滤波器中噪声功率谱和拉格朗日乘子的估计问题,用高斯、拉普拉斯和伽玛模型描述了语音的分布,提出了利用目标语音概率最大化来确定信号子空间维度的方法。在噪声子空间上,利用条件概率估计出噪声功率谱。接着,为了合理地折中增强语音中的残余噪声和语音畸变,提出了一种基于人耳听觉掩蔽效应的拉格朗日乘子估计方法。实验证明,在多项语音质量评价指标上,所提算法都取得了更好的结果。所提的信号子空间算法比传统的信号子空间算法更有效地消除了噪声,使得恢复的语音具有更好的质量。 相似文献
9.
针对目前有监督语音增强忽略了纯净语音、噪声与带噪语音之间的幅度谱相似性对增强效果影响等问题,提出了一种联合精确比值掩蔽(ARM)与深度神经网络(DNN)的语音增强方法。该方法利用纯净语音与带噪语音、噪声与带噪语音的幅度谱归一化互相关系数,设计了一种基于时频域理想比值掩蔽的精确比值掩蔽作为目标掩蔽;然后以纯净语音和噪声幅度谱为训练目标的DNN为基线,通过该DNN的输出来估计目标掩蔽,并对基线DNN和目标掩蔽进行联合优化,增强语音由目标掩蔽从带噪语音中估计得到;此外,考虑到纯净语音与噪声的区分性信息,采用一种区分性训练函数代替均方误差(MSE)函数作为基线DNN的目标函数,以使网络输出更加准确。实验表明,区分性训练函数提升了基线DNN以及整个联合优化网络的增强效果;在匹配噪声和不匹配噪声下,相比于其它常见DNN方法,本文方法取得了更高的平均客观语音质量评估(PESQ)和短时客观可懂度(STOI),增强后的语音保留了更多语音成分,同时对噪声的抑制效果更加明显。 相似文献
10.
11.
TAO Zhi ZHAO Heming WU Di CHEN Daqing ZHANG Xiaojun 《声学学报:英文版》2011,30(3):345-357
Whispered speech enhancement using auditory masking model in modified Meldomain and Speech Absence Probability(SAP)was proposed.In light of the phonation characteristic of whisper,we modify the Mel-frequency Scaling model.Whispered speech is filtered by the proposed model.Meanwhile,the value of masking threshold for each frequency band is dynamically determined by speech absence probability.Then whispered speech enhancement is conducted by adaptively rectifying the spectrum subtraction coefficients using different masking threshold values.Results of objective and subjective tests on the enhanced whispered signal show that compared with other methods;the proposed method can enhance whispered signal with better subjective auditory quality and less distortion by reducing the music noise and background noise under the masking threshold value. 相似文献
12.
Deshmukh OD Espy-Wilson CY Carney LH 《The Journal of the Acoustical Society of America》2007,121(6):3886-3898
In this paper we present a model called the Modified Phase-Opponency (MPO) model for single-channel speech enhancement when the speech is corrupted by additive noise. The MPO model is based on the auditory PO model, proposed for detection of tones in noise. The PO model includes a physiologically realistic mechanism for processing the information in neural discharge times and exploits the frequency-dependent phase properties of the tuned filters in the auditory periphery by using a cross-auditory-nerve-fiber coincidence detection for extracting temporal cues. The MPO model alters the components of the PO model such that the basic functionality of the PO model is maintained but the properties of the model can be analyzed and modified independently. The MPO-based speech enhancement scheme does not need to estimate the noise characteristics nor does it assume that the noise satisfies any statistical model. The MPO technique leads to the lowest value of the LPC-based objective measures and the highest value of the perceptual evaluation of speech quality measure compared to other methods when the speech signals are corrupted by fluctuating noise. Combining the MPO speech enhancement technique with our aperiodicity, periodicity, and pitch detector further improves its performance. 相似文献
13.
14.
15.
提出了一种基于极大似然的噪声对数功率谱估计方法,采用高斯混合模型对每一个频带上的功率谱包络构建统计模型,将时序包络划分为语音和非语音类,它们分别对应于高斯混合模型的两个高斯分量,描述语音和非语音的统计分布,其中非语音高斯分量的均值即为噪声功率谱的最优估计.采用序贯学习的方法,在极大似然准则下逐帧更新模型参数,并逐帧给出噪声功率谱的最优估计值。此外,由于序贯更新过程中语音信号长时缺失,容易导致模型失稳,提出了一种在线的最小描述长度准则(MDL)来判断语音信号是否长时缺失,从而保证了模型的稳定性.实验表明,算法性能整体优于经典的MS和IMCRA算法。 相似文献