共查询到17条相似文献,搜索用时 82 毫秒
1.
基于深度聚类的语音分离方法已被证明能有效地解决混合语音中说话人输出标签排列的问题,然而,现有关于聚类进行说话人分离方法,大多数是优化嵌入使每个源的重建误差最小化。本文以时域卷积网络(ConvTasNet)为基础网络,设计了一种改进基于聚类的门控卷积(Gate-conv Cluster)语音分离方法,在时域上通过堆叠的门控卷积网络,实现端到端深度聚类的源分离。该框架将非线性门控激活用于时域卷积网络中,提取语音信号的深层次特征;同时在高维特征空间中聚类对语音信号的特征进行表示和划分,为恢复不同信号源提供了一个长期的说话者表示信息。该框架解决了说话人输出标签排列问题并对语音信号的长期依赖性进行建模。通过华尔街日报数据集进行实验得出,该方法在SDRi(信源失真比)和Si-SNR(尺度不变信源噪声比)指标上分别达到了16.72 dB和16.33 dB的效果。 相似文献
2.
当前基于深度神经网络模型中,虽然其隐含层可设置多层,对复杂问题适应能力强,但每层之间的节点连接是相互独立的,这种结构特性导致了在语音序列中无法利用上下文相关信息来提高识别效果,而传统的循环神经网络虽然做出了改进,但是只能对上文信息进行利用。针对以上问题,该文采用可以同时利用语音序列中上下文相关信息的双向循环神经网络模型与深度神经网络模型相结合,并应用于语音识别。构建具有5层隐含层的模型,其中第3层为双向循环神经网络结构,其他层采用深度神经网络结构。实验结果表明:加入了双向循环神经网络结构的模型与其他模型相比,较好地提高了识别正确率;噪声对双向循环神经网络汉语识别有重要影响,尤其是训练集和测试集附加噪声类型不同时,单一的含噪声语音的训练模型无法适应不同噪声类型的语音识别;调整神经网络模型中隐含层神经元数量后,识别正确率并不是一直随着隐含层中神经元数量的增加而增加,神经元数量数目增加到一定程度后正确率出现了降低的趋势。 相似文献
3.
4.
语音质量的客观评价可以代替昂贵的人工评分,但是目前客观指标的计算通常需要纯净的参考语音,这在许多实际声学系统中很难获得。为此提出了一种融合辅助目标学习和卷积循环网络(CRN)的非侵入式语音质量评价算法。为降低算法的复杂度,算法采用基于仿人耳听觉特性滤波器的Bark频率倒谱系数(BFCCs)作为CRN的输入。算法首先构建一个卷积神经网络(CNN)从BFCCs中提取帧级特征。然后,构建双向的长短记忆网络,在帧级特征中建模长期的时间依赖性和序列特征。最后,利用自注意力机制自适应地从帧级特征中筛选出有用信息,将其整合至话语层面的特征中,并将这些话语级特征映射为客观得分。为改善质量评测的有效性,算法采用多任务训练策略,引入语音激活检测(VAD)作为辅助学习目标。基于开源数据库的实验显示,与其他非侵入式算法相比,提出的算法和平均主观意见分(MOS)具有更好的相关性。而且,算法参数规模较小且对ITU-T P.808发布的带有主观MOS的失真语音数据库具有良好的泛化能力,接近语音质量感知评估(PESQ)指标的精度。 相似文献
5.
为了解决传统卷积神经网络识别连续语音数据时识别性能较差的问题,提出一种改进的卷积神经网络算法。该方法引入Fisher准则以及L2正则化约束,在反向传播调整参数阶段,既保证参数误差的最小化,又确保分类以后的样本类间分布较分散,类内分布较集中,同时保证网络权值具有合适的数量级以有效缓解过拟合问题;采用一种更符合生物神经元激活特性的新型log激活函数进行卷积神经网络的优化,进一步提高语音识别的正确率。在语音识别库TIMIT以及THCHS30上的实验结果表明,相较于传统卷积神经网络算法,本文提出的改进算法能较好的提高语音识别率,且泛化能力更强。 相似文献
6.
针对目前有监督语音增强忽略了纯净语音、噪声与带噪语音之间的幅度谱相似性对增强效果影响等问题,提出了一种联合精确比值掩蔽(ARM)与深度神经网络(DNN)的语音增强方法。该方法利用纯净语音与带噪语音、噪声与带噪语音的幅度谱归一化互相关系数,设计了一种基于时频域理想比值掩蔽的精确比值掩蔽作为目标掩蔽;然后以纯净语音和噪声幅度谱为训练目标的DNN为基线,通过该DNN的输出来估计目标掩蔽,并对基线DNN和目标掩蔽进行联合优化,增强语音由目标掩蔽从带噪语音中估计得到;此外,考虑到纯净语音与噪声的区分性信息,采用一种区分性训练函数代替均方误差(MSE)函数作为基线DNN的目标函数,以使网络输出更加准确。实验表明,区分性训练函数提升了基线DNN以及整个联合优化网络的增强效果;在匹配噪声和不匹配噪声下,相比于其它常见DNN方法,本文方法取得了更高的平均客观语音质量评估(PESQ)和短时客观可懂度(STOI),增强后的语音保留了更多语音成分,同时对噪声的抑制效果更加明显。 相似文献
7.
分蘖数是表征冬小麦生长的关键性参数,对于冬小麦苗情监测、产量预估具有重要意义。针对目前冬小麦分蘖数估算方法存在的数据获取繁复和估算模型体量大的问题,提出一种基于可见光图像和轻量级卷积神经网络的冬小麦分蘖数估算方法,以期实现冬小麦分蘖数无损快速估算,并且可嵌入移动终端设备。可见光图像具有获取便捷,处理简单的特点,利用数码相机连续采集2017年—2018年和2018年—2019年两个生长季的冬小麦冠层可见光图像。利用该数据图像,分别构建基于轻量级卷积神经网络MobileNetV2,SqueezeNett,ShuffleNet的冬小麦分蘖数估算模型进行比较试验,并与基于非轻量级卷积神经网络AlexNet和ResNet系列构建的估算模型进行对比试验。开展冬小麦分蘖数估算模型针对不同植株密度数据的鲁棒性以及针对不同生长季数据的泛化能力的验证试验。结果表明,基于MobileNetV2构建的冬小麦分蘖数估算模型的决定系数(R2)为0.7,归一化均方根误差(NRMSE)为0.2,在三个轻量级卷积神经网络中具有最优表现;基于非轻量级卷积神经网络构建的冬小麦分蘖数估算模型体积是基于MobileNetV2构建的冬小麦分蘖数估算模型的2.3~16.1倍。与非轻量级卷积神经网络相比较,基于MobileNetV2构建的估算模型在具有较好R2的同时有较小的体量,适宜嵌入移动终端设备;针对120,270和420 株·m-2三个不同植株密度的可见光图像数据集,基于MobileNetV2构建的冬小麦分蘖数估算模型的R2分别为0.8,0.8和0.7,表现鲁棒;针对两个生长季的可见光图像,基于MobileNetV2构建的冬小麦分蘖数估算模型通过迁移学习将R2提升了2倍,NRMSE下降了7.6%,表现出对数据季节性差异较好的适应性,体现了模型的泛化能力。利用可见光图像,基于MobileNetV2构建的估算模型能够满足冬小麦分蘖数估算需求,为冬小麦生长观测以及田间农艺措施管理决策提供了一个准确、鲁棒、可嵌入移动终端设备的工具。 相似文献
8.
提出两种基于非对称代价函数的耳语音增强算法,将语音增强过程中的放大失真和压缩失真区分对待。Modified ItakuraSaito (MIS)算法对放大失真给予更多的惩罚,而Kullback-Leibler (KL)算法则对压缩失真给予更多的惩罚。实验结果表明,在低于—6 dB的低信噪比情况中,经MIS算法增强后的耳语音的可懂度相比传统算法有显著提高;而KL算法则获得了同最小均方误差语音增强算法近似的可懂度提高效果,证实了耳语音中的放大失真和压缩失真对于耳语音可懂度的影响并不相同,低信噪比时较大的压缩失真有助于提高耳语音可懂度,而高信噪比时的压缩失真对耳语音可懂度影响较小。 相似文献
9.
盆式绝缘子是GIS的关键绝缘器件,它与两侧气室法兰通过螺栓进行紧固连接,当螺栓松动时会导致盆式绝缘子应力分布不均,严重时会引起绝缘子破裂,从而影响GIS运行的安全性和可靠性。文章搭建了盆式绝缘子螺栓松动超声波检测系统,以获取不同螺栓不同工况下的超声信号,基于卷积神经网络对超声信号进行特征提取,并且与BP神经网络的训练结果进行对比分析。实验结果表明,卷积神经网络可以自动提取GIS盆式绝缘子螺栓松动特征量,对十种螺栓松动工况的识别准确率达到100%,相比于BP神经网络具有较高的识别准确率,该方法可以直接用于盆式绝缘子螺栓松动检测。 相似文献
10.
噪声估计的准确性直接影响语音增强算法的好坏,为提升当前语音增强算法的噪声抑制效果,有效求解无约束优化问题,提出一种联合深度神经网络(DNN)和凸优化的时频掩蔽优化算法进行单通道语音增强。首先,提取带噪语音的能量谱作为DNN的输入特征;接着,将噪声与带噪语音的频带内互相关系数(ICC Factor)作为DNN的训练目标;然后,利用DNN模型得到的互相关系数构造凸优化的目标函数;最后,联合DNN和凸优化,利用新混合共轭梯度法迭代处理初始掩蔽,通过新的掩蔽合成增强语音。仿真实验表明,在不同背景噪声的低信噪比下,相比改进前,新的掩蔽使增强语音获得了更好的对数谱距离(LSD)、主观语音质量(PESQ)、短时客观可懂度(STOI)和分段信噪比(segSNR)指标,提升了语音的整体质量并且可以有效抑制噪声。 相似文献
11.
We propose a novel neural network based on a diagonal recurrent neural network and chaos,and its structure and learning algorithm are designed.The multilayer feedforward neural network,diagonal recurrent neural network,and chaotic diagonal recurrent neural network are used to approach the cubic symmetry map.The simulation results show that the approximation capability of the chaotic diagonal recurrent neural network is better than the other two neural networks. 相似文献
12.
基于深度神经网络的方法已经在语声增强领域得到了广泛的应用,然而若想取得理想的性能,一般需要规模较大且复杂度较高的模型。因此,在计算资源有限的设备或对延时要求高的环境下容易出现部署困难的问题。为了解决此问题,提出了一种基于深度复卷积递归网络的师生学习语声增强方法。在师生深度复卷积递归网络模型结构中间的复长短时记忆递归模块提取实部和虚部特征流,并分别计算帧级师生距离损失以进行知识转移。同时使用多分辨率频谱损失以进一步提升低复杂度学生模型的性能。实验在公开数据集Voice Bank Demand和DNS Challenge上进行,结果显示所提方法相对于基线学生模型在各项指标上均有明显提升。 相似文献
13.
14.
Multi-step-prediction of chaotic time series based on co-evolutionary recurrent neural network 总被引:1,自引:0,他引:1 下载免费PDF全文
This paper proposes a co-evolutionary recurrent neural network (CERNN) for the multi-step-prediction of chaotic time series, it estimates the proper parameters of phase space reconstruction and optimizes the structure of recurrent neural networks by coevolutionary strategy. The searching space was separated into two subspaces and the individuals are trained in a parallel computational procedure. It can dynamically combine the embedding method with the capability of recurrent neural network to incorporate past experience due to internal recurrence. The effectiveness of CERNN is evaluated by using three benchmark chaotic time series data sets: the Lorenz series, Mackey-Glass series and real-world sun spot series. The simulation results show that CERNN improves the performances of multi-step-prediction of chaotic time series. 相似文献
15.
16.
图像在生成或传感过程中往往会受到噪声干扰,噪声干扰会给后续图像处理工作增加难度,甚至会给某些生产活动带来巨大的经济损失。结合平稳小波变换与卷积神经网络的优势,提出了一种有效的图像去噪算法。训练阶段,采用提出的算法对图像进行尺度为1的平稳小波分解后,分别把高、低频分量输入4个设计好的残差网络进行训练;在测试阶段使用小波逆变换来获得最终的预测图像。实验结果表明:在高斯白噪声水平达到σ=50时,去噪后图像的峰值信噪比(peak signal to noise ratio, PSNR)均值和结构相似性(structural similarity index method, SSIM)均值可以达到28.37 dB和0.808 0,提出的算法可以有效去除可见光图像中的高斯白噪声、自然噪声,以及遥感图像在传感过程中产生的噪声,并且在去除图像噪声的同时能较好地保留图像的边缘与纹理细节。 相似文献
17.
提出一种结合卷积神经网络的编解码器模型和混响时间注意力机制的混响抑制算法,该算法通过编解码器模型实现混响抑制,并利用混响时间注意力机制克服混响环境变化对混响抑制效果的影响。该算法在编码器中使用具有不同大小的卷积核来处理混响语音幅度谱,从而获得包含多尺度上下文信息的编码特征;通过引入注意力模块,实现在不同的混响时间环境中选择性地使用不同权重的编码特征生成加权特征;最后,在解码器中使用加权特征来重建混响抑制后的语音信号幅度谱。在模拟和真实的混响环境下,该算法相对于基线系统在语音混响调制能量比上分别取得了0.36 dB和0.66 dB的提升。实验结果表明,该算法可以适应不同混响环境的变化,相对基线系统在真实混响环境下具有更高的鲁棒性。 相似文献