首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
提出了一种两阶段复数谱卷积循环网络(CRN)的立体声回声消除(SAEC)算法,该算法无需对立体声信号进行去相关,因而能够在保证立体声音质和空间感的同时,解决自适应滤波SAEC算法非唯一解问题。所提算法采用两个阶段进行回声消除,第一阶段根据传声器接收信号和参考信号估计回声信号,第二阶段将估计回声信号作为先验信息,联合传声器接收信号作为输入特征,估计近端语音。相对于单阶段CRN算法,该方法能够提高网络对回声和近端语音的区分度,有助于近端语音的提取。另外,网络的输入特征和训练目标均采用复数谱,降低了近端语音的相位估计误差,因而可以进一步提升算法性能。实验表明,基于两阶段复数谱CRN的SAEC算法在单端讲话时的回声抑制量和双端讲话时的语音质量都明显优于传统算法以及单阶段CRN算法。   相似文献   

2.
针对在基于深度学习语音增强的方法中因采用因果式的网络输入导致语音增强性能下降的问题,提出了一种基于轻量级卷积门控循环神经网络(LCGRU)的语音增强方法。门控循环神经网络能够建模语音信号的时间相关性,但是其全连接结构破坏了语音信号的时频结构特征,并且参数数量庞大,不利于网络的训练。对此,本文采用卷积核替代门控循环神经网络中的全连接结构,在对语音信号时间相关性建模的同时保留了语音信号的时频结构特征,同时降低了网络的参数数量。为充分利用先前帧的特征信息,该网络单元当前时刻的输入融合了上一时刻的输入与输出。针对网络训练过程中容易产生过拟合的问题,本文采用了线性门控机制来控制信息的传输,这缓解了网络训练过程中的过拟合问题,提高了网络的语音增强性能。实验结果表明,本文所提出的网络结构在增强后的语音感知质量(PESQ),语音短时客观可懂度(STOI),分段信噪比(SSNR)等指标上均优于传统的网络结构。  相似文献   

3.
利用深度卷积神经网络将耳语转换为正常语音   总被引:4,自引:1,他引:3       下载免费PDF全文
耳语是一种特殊发音方式,将耳语转换为正常语音是提升耳语质量和可懂度的关键方法。为了充分利用语音的频域和时域相关性实现耳语转换,提出了使用深度卷积神经网络(Deep Convolutional Neural Networks,DCNN)将耳语转换为正常语音。它的卷积层用来提取连续帧语音谱包络之间的频域与时域的相关特征,而全连接层用来拟合耳语在卷积层提取的特征和对应正常语音之间的映射关系。实验结果表明与深度神经网络(Deep Neural Networks,DNN)模型相比,DCNN模型获得的转换后语音的梅尔倒谱失真度(Cepstral Distance,CD)降低了4.64%,而语音质量感知评价(Perceptual Evaluation of Speech Quality,PESQ)、短时客观可懂度(Short-Time Objective Intelligibility,STOI)与平均主观意见分(Mean Opinion Score,MOS)分别提高了5.41%,5.77%,9.68%。   相似文献   

4.
罗宇  胡维平  吴华楠 《应用声学》2023,42(5):1099-1105
基于深度聚类的语音分离方法已被证明能有效地解决混合语音中说话人输出标签排列的问题,然而,现有关于聚类进行说话人分离方法,大多数是优化嵌入使每个源的重建误差最小化。本文以时域卷积网络(ConvTasNet)为基础网络,设计了一种改进基于聚类的门控卷积(Gate-conv Cluster)语音分离方法,在时域上通过堆叠的门控卷积网络,实现端到端深度聚类的源分离。该框架将非线性门控激活用于时域卷积网络中,提取语音信号的深层次特征;同时在高维特征空间中聚类对语音信号的特征进行表示和划分,为恢复不同信号源提供了一个长期的说话者表示信息。该框架解决了说话人输出标签排列问题并对语音信号的长期依赖性进行建模。通过华尔街日报数据集进行实验得出,该方法在SDRi(信源失真比)和Si-SNR(尺度不变信源噪声比)指标上分别达到了16.72 dB和16.33 dB的效果。  相似文献   

5.
路成  田猛  周健  王华彬  陶亮 《声学学报》2017,42(3):377-384
为了刻画语音信号帧间相关性和使用更少的语音基表示语音特征,提出一种采用L1/2稀疏约束的卷积非负矩阵分解方法进行单通道语音增强。首先,进行噪声学习得到噪声基;然后,以噪声基为先验信息结合L1/2稀疏约束卷积非负矩阵分解方法学习含噪语音中的语音基成分;最后,利用学习到的语音基和系数重建出干净语音信号。在不同噪声环境下进行的实验结果表明,本文方法优于采用L1稀疏约束的卷积非负矩阵方法及传统的统计语音增强方法。   相似文献   

6.
语音带宽扩展是为了提高语音质量,利用语音低频和高频之间的相关性重构语音高频的一种技术。高斯混合模型法是语音带宽技术中被广泛应用的一种方法,但是,该方法的映射函数是分段线性函数,且没有考虑语音前后帧的相关信息。因此,提出了一种基于条件受限玻尔兹曼机的方法。该方法利用条件受限玻尔兹曼机提取了语音信号的帧间信息,同时将语音低频、高频特征参数映射为高阶统计特性,深层发掘和模拟了语音低频和高频之间的非线性关系。客观和主观对比测试结果都表明,该方法性能优于传统的高斯混合模型方法。   相似文献   

7.
汉语通信系统客观音质评价方法   总被引:5,自引:0,他引:5  
提出一种使用语音频谱动态特性的倒谱距离测量对通信系统或通信设备进行客观音质评价方法.它是在对语音通信中主、客观音质评价的研究并在使用LPC倒谱距离评价普通话语音质量的基础上发展起来的。语音频谱动态特性是利用倒谱系数对时间的回归分析来表示的.这种方法中,使用倒谱系数,回归系数和能量三个参数计算距离。比较了四种距离估算方法和主观音质评价(MOS)的相关性,结果表明该方法的综合评价与MOS得分的相关性最好,相关系数为0.954,取得了客观评价方法与主观评价方法一致的结果。  相似文献   

8.
肖东  莫福源  陈庚  马力 《应用声学》2016,35(1):77-83
过渡段对语音清晰度、可懂度和人耳听觉感知都起到不可忽视的作用。参数语音编码中,包含有过渡段的语音帧能否得到恰当处理,是决定其合成语音是否清晰可懂的关键。本文以混合激励线性预测编码为参考,将其中的语音帧划分为静音、清音、浊音、过渡四大类后分别处理,在以往低码率语音编码(1 kbps)工作基础上,比较了八种过渡帧划分方法对合成语音PESQ MOS的影响。经分析后发现:不同的过渡帧对PESQ MOS的贡献也不同。由清、静音向浊音变化的过渡帧的贡献最大;介于浊辅音与元音之间的过渡帧的贡献也不应被忽略。  相似文献   

9.
解伟超  张玲华 《声学学报》2014,39(1):130-136
提出一种基于自组织聚类,并且利用改进粒子群算法确定转换模型参数的语音转换方法.该方法首先基于自组织特征映射网络对特征参数进行聚类,再对每个聚类分别建立转换规则,并且利用柯西变异的粒子群算法确定每个转换规则中的模型参数.与传统的单一转换规则相比,聚类后建立的多转换规则以及利用改进粒子群算法确定参数能够提高映射关系的准确度,避免参数陷入局部最优点。以女声转男声为例,主观测试表明该方法得到的转换语音与目标的相似度提高了27.6%,平均主观意见分(Mean Opinion Score,MOS)提高了0.6,客观测试也表明该方法谱失真最小,与目标的包络更接近.   相似文献   

10.
针对舱室环境单通道语音增强问题,设计了一种联合并行空洞卷积与分组卷积的深度时域语音增强网络。该网络以经典卷积时域音频分离网络为基础,在增强层设计中通过不同膨胀因子执行两路并行的空洞卷积操作,实现对长时信号的处理以更多地提取信号包络所包含的低频信息并抑制噪声混响所带来的时延问题,同时保留了局部的语音细节信息,提高对波形中所包含语音及背景噪声谐波信息的提取准确度;另外,利用分组卷积降低并行卷积操作所导致的网络规模扩大,使网络在具有良好增强效果的同时能够保持较小的网络规模及运算复杂度。以多类飞机舱室噪声为数据基础的实验表明,所设计的网络模块相较于基线网络提升了客观评价指标值,与现有其他常用网络的比较结果表明此方法在舱室环境的数据条件下可获得更好的主客观语音增强评价指标,且在高噪声级的线谱及窄带处具有更低的失真度。  相似文献   

11.
Indoor location-aware service is booming in daily life and business activities, making the demand for precise indoor positioning systems thrive. The identification between line-of-sight (LOS) and non-line-of-sight (NLOS) is critical for wireless indoor time-of-arrival-based localization methods. Ultra-Wide-Band (UWB) is considered low cost among the many wireless positioning systems. It can resolve multi-path and have high penetration ability. This contribution addresses UWB NLOS/LOS identification problem in multiple environments. We propose a LOS/NLOS identification method using Convolutional Neural Network parallel with Gate Recurrent Unit, named Indoor NLOS/LOS identification Neural Network. The Convolutional Neural Network extracts spatial features of UWB channel impulse response data. While the Gate Recurrent Unit is an effective approach for designing deep recurrent neural networks which can extract temporal features. By integrating squeeze-and-extraction blocks into these architectures we can assign weights on channel-wise features. We simulated UWB channel impulse response signals in residential, office, and industrial scenarios based on the IEEE 802.15.4a channel model report. The presented network was tested in simulation scenarios and an open-source real-time measured dataset. Our method can solve NLOS identification problems for multiple indoor environments. Thus more versatile compare with networks only working in one scenario. Popular machine learning methods and deep learning methods are compared against our method. The test results show that the proposed network outperforms benchmark methods in simulation datasets and real-time measured datasets.  相似文献   

12.
随着近年来光谱探测仪器灵敏度、精确度和易用度的不断提升,光谱技术已经深入到各行各业的物质成分的鉴定与分析中.对于空间目标的光谱观测是传统光学观测的重要拓展之一,因其具有的非接触、无损伤等优点而备受关注,然而由于观测条件所限,空间目标的光谱数据量极小,通过传统方法对其进行分类分析达不到较好效果,必须探求提高分类精度的方法...  相似文献   

13.
惠琳  俞一彪 《声学学报》2017,42(6):762-768
提出一种短时频谱通用背景模型群与韵律参数相结合进行年龄语音转换的方法。谱参数转换方面,同一年龄段各说话者提取语音短时谱系数并建立高斯混合模型,然后依据语音特征相似性对说话者进行聚类,每一类训练一个通用背景模型,最终得到通用背景模型群和一组短时频谱转换函数。谱参数转换之后再对共振峰进一步微调。韵律参数转换方面,基频和语速分别建立单高斯和平均时长率模型来推导转换函数。实验结果显示,提出的方法在ABX和MOS等评价指标上比传统的双线性法有明显的优势,相对单一通用背景模型法的对数似然度变化率提高了4%。这一结果表明提出的方法能够使转换语音具有良好目标倾向性的同时有较好的语音质量,性能较传统方法有明显提升。   相似文献   

14.
This paper presents an algorithm to calibrate the center‐of‐rotation for X‐ray tomography by using a machine learning approach, the Convolutional Neural Network (CNN). The algorithm shows excellent accuracy from the evaluation of synthetic data with various noise ratios. It is further validated with experimental data of four different shale samples measured at the Advanced Photon Source and at the Swiss Light Source. The results are as good as those determined by visual inspection and show better robustness than conventional methods. CNN has also great potential for reducing or removing other artifacts caused by instrument instability, detector non‐linearity, etc. An open‐source toolbox, which integrates the CNN methods described in this paper, is freely available through GitHub at tomography/xlearn and can be easily integrated into existing computational pipelines available at various synchrotron facilities. Source code, documentation and information on how to contribute are also provided.  相似文献   

15.
蒿晓阳  张鹏远 《声学学报》2022,47(3):405-416
常见的多说话人语音合成有参数自适应及添加说话人标签两种方法。参数自适应方法获得的模型仅支持合成经过自适应的说话人的语音,模型不够鲁棒。传统的添加说话人标签的方法需要有监督地获得语音的说话人信息,并没有从语音信号本身无监督地学习说话人标签。为解决这些问题,提出了一种基于变分自编码器的自回归多说话人语音合成方法。方法首先利用变分自编码器无监督地学习说话人的信息并将其隐式编码为说话人标签,之后与文本的语言学特征送入到一个自回归声学参数预测网络中。此外,为了抑制多说话人语音数据引起的基频预测过拟合问题,声学参数网络采用了基频多任务学习的方法。预实验表明,自回归结构的加入降低了频谱误差1.018 dB,基频多任务学习降低了基频均方根误差6.861 Hz。在后续的多说话人对比实验中,提出的方法在3个多说话人实验的平均主观意见分(MOS)打分上分别达到3.71,3.55,3.15,拼音错误率分别为6.71%,7.54%,9.87%,提升了多说话人语音合成的音质。   相似文献   

16.
This paper addresses the problem of the speech quality improvement using adaptive filtering algorithms. Recently in Djendi and Bendoumia (2014) [1], we have proposed a new two-channel backward algorithm for noise reduction and speech intelligibility enhancement. The main drawback of proposed two-channel subband algorithm is its poor performance when the number of subband is high. This inconvenience is well seen in the steady state regime values. The source of this problem is the fixed step-sizes of the cross-adaptive filtering algorithms that distort the speech signal when they are selected high and degrade the convergence speed behaviours when they are selected small. In this paper, we propose four modifications of this algorithm which allow improving both the convergence speed and the steady state values even in very noisy condition and a high number of subbands. To confirm the good performance of the four proposed variable-step-size SBBSS algorithms, we have carried out several simulations in various noisy environments. In these simulations, we have evaluated objective and subjective criteria as the system mismatch, the cepstral distance, the output signal-to-noise-ratio, and the mean opinion score (MOS) method to compare the four proposed variables step-size versions of the SBBSS algorithm with their original versions and with the two-channel fullband backward (2CFB) least mean square algorithm.  相似文献   

17.
设计了一个适用于端到端语音增强的改进的U-Net (Attention Dilated Convolution U-Net,ADC-U-Net)网络模型.与基线U-Net网络相比,一方面通过加入空洞卷积减小由采样带来的信息损失;另一方面引入了注意力机制结构,结合了含噪语音更多的上下文信息,提取更深层次和更丰富的特征信息...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号