期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

谷东简志华《声学学报》2018,43(5):864-872

针对目标说话人可能存在语料不足的情况,本文提出了一种有限语料下的统一张量字典语音转换算法。从语料库中选取N个说话人作为语音张量字典的基础说话人,通过多序列动态时间规整算法使这N个说话人的平行语音段对齐,从而建立由N个二维基础字典构成的张量字典。在语音转换阶段,源、目标说话人语音都可以通过张量字典中各基础字典的线性组合,构造出各自的语音字典,实现了语音转换。实验结果表明,当基础说话人个数达到14时,只需要极少的目标说话人语料,便可获得与传统的基于非负矩阵分解转换算法相当的转换效果,这极大地方便了语音转换系统的应用。相似文献

2.

噪声情况下采用稀疏非负矩阵分解与深度吸引子网络的人声分离算法 总被引：1，自引：1，他引：0

下载免费PDF全文

葛宛营张天骐范聪聪张天《声学学报》2021,46(1):55-66

为实现噪声情况下的人声分离,提出了一种采用稀疏非负矩阵分解与深度吸引子网络的单通道人声分离算法。首先,通过训练得到人声与噪声的字典矩阵,将其作为先验信息从带噪混合语音中分离出人声与噪声的系数矩阵;然后,根据人声系数矩阵中不同的声源成分在嵌入空间中的相似性不同,使用深度吸引子网络将其分离为各声源语音的系数矩阵;最后,使用分离得到的各语音系数矩阵与人声的字典矩阵重构干净的分离语音。在不同噪声情况下的实验结果表明,本文算法能够在抑制背景噪声的同时提高分离语音的整体质量,优于结合声噪人声分离模型的对比算法。相似文献

3.

采用性别相关的深度神经网络及非负矩阵分解模型用于单通道语音增强 总被引：3，自引：0，他引：3

下载免费PDF全文

李煦王子腾王晓飞付强颜永红《声学学报》2019,44(2):221-230

为了从带噪信号中得到纯净的语音信号,提出了一种采用性别相关模型的单通道语音增强算法。具体而言,在训练阶段,分别训练了与性别相关的深度神经网络-非负矩阵分解模型用于估计非负矩阵分解中的权重参数;在测试阶段,提出了一种基于非负矩阵分解和组稀疏惩罚的算法用于判断测试语音中说话人的性别信息,然后再采用对应的模型估计权重,并结合已训练好的字典进行语音增强。实验结果表明所提算法在噪声抑制量及语音质量上,均优于一些基于非负矩阵分解的算法和基于深度神经网络的算法。相似文献

4.

L_1/2稀疏约束卷积非负矩阵分解的单通道语音增强方法

下载免费PDF全文

路成田猛周健王华彬陶亮《声学学报》2017,42(3):377-384

为了刻画语音信号帧间相关性和使用更少的语音基表示语音特征,提出一种采用L_1/2稀疏约束的卷积非负矩阵分解方法进行单通道语音增强。首先,进行噪声学习得到噪声基;然后,以噪声基为先验信息结合L_1/2稀疏约束卷积非负矩阵分解方法学习含噪语音中的语音基成分;最后,利用学习到的语音基和系数重建出干净语音信号。在不同噪声环境下进行的实验结果表明,本文方法优于采用L₁稀疏约束的卷积非负矩阵方法及传统的统计语音增强方法。相似文献

5.

采用压缩感知的改进的语音转换算法

简志华王向文《声学学报》2014,39(3):400-406

提出了一种基于压缩感知的考虑语音帧间信息的语音转换算法。根据连续多帧语音的线谱对参数所构成的矢量在离散余弦变换域具有稀疏性,利用压缩感知技术对该矢量压缩成短矢量,并将该压缩后的短矢量作为特征参数训练语音转换函数。实验测试结果表明,选择合适的语音帧数时,该算法的性能要比传统的采用加权频率卷绕的转换算法提高3.21%。这说明,充分有效地利用语音帧间的相关信息会使转换语音保持更稳定的帧间声学特性,有利于提高语音转换系统的性能, 相似文献

6.

融合梅尔谱增强与特征解耦的噪声鲁棒语音转换

陈乐乐张雄伟孙蒙张星昱《声学学报》2023,(5):1070-1080

提出了一种融合梅尔谱增强与特征解耦的噪声鲁棒语音转换模型,即MENR-VC模型。该模型采用3个编码器提取语音内容、基频和说话人身份矢量特征,并引入互信息作为相关性度量指标,通过最小化互信息进行矢量特征解耦,实现对说话人身份的转换。为了改善含噪语音的频谱质量,模型使用深度复数循环卷积网络对含噪梅尔谱进行增强,并将其作为说话人编码器的输入;同时,在训练过程中,引入梅尔谱增强损失函数对模型整体损失函数进行了改进。仿真实验结果表明,与同类最优的噪声鲁棒语音转换方法相比,所提模型得到的转换语音在语音自然度和说话人相似度的平均意见得分方面,分别提高了0.12和0.07。解决了语音转换模型在使用含噪语音进行训练时,会导致深度神经网络训练过程难以收敛,转换语音质量大幅下降的问题。相似文献

7.

结合幅度谱和功率谱字典的语音增强方法 总被引：1，自引：0，他引：1

下载免费PDF全文

聂玲子陈雪勤赵鹤鸣《声学学报》2021,46(1):81-91

从双路字典学习、噪声功率谱估计、语音幅度谱重构角度提出了一种改进的谱特征稀疏表示语音增强方法。在字典学习阶段,融合功率谱与幅度谱特征,采用区分性字典降低语音字典和噪声字典的相干性;在语音增强阶段,提出一种噪声功率谱估计方法对非平稳噪声进行跟踪估计;考虑到幅度谱和功率谱特征对不同噪声的适应程度不同,设计了语音重构权值表。对分别由幅度谱和功率谱恢复而来的两路信号进行自适应加权重构,结合相位补偿函数得到增强后的语音信号。实验结果表明,该方法在平稳、非平稳噪声环境下相比于单一谱特征的语音增强方法平均提高31.6%,改善了语音增强方法的性能。相似文献

8.

采用低维特征映射的耳语音向正常音转换 总被引：1，自引：0，他引：1

下载免费PDF全文

周健窦云峰刘荣敏王华彬陶亮《声学学报》2018,43(5):855-863

在将耳语音转换为正常音时,为了研究降维后语音特征对耳语音转换的影响,分别对耳语音和正常音谱包络进行自适应编码以提取耳语音和正常音的低维特征,然后使用BP网络建立耳语音和正常音低维谱包络特征之间的映射关系以及正常音基频和耳语音低维谱包络特征之间的关系。转换时,根据耳语音低维谱包络特征获得对应正常音的低维谱包络特征和基频,对低维谱包络特征进行解码后获得对应的正常音谱包络。实验结果表明,采用此方法转换后的语音与正常音之间的倒谱距离相比高斯混合模型方法下降了10%,转换后语音的自然度和可懂度都有所提高。相似文献

9.

声源追踪训练对语音型噪声中语音识别的影响

下载免费PDF全文

杜衣杭方卫宁《声学学报》2019,44(5):945-950

听觉训练可以提升人在噪声环境中语音识别的绩效.首先设计了一种以稳定声源为刺激的听觉追踪任务,在20个训练单元后,采用由干扰语音类型和信噪比两个因素构成3×5语音型噪声掩蔽下的语音识别测试验证了该训练方法的有效性.结果发现,训练组的语音识别率显著高于对照组,证明听觉注意力可以通过声源追踪任务的训练得到提高。实验结果表明,声源追踪训练可以使人在语音型噪声掩蔽下的听觉注意力水平趋于稳定。相似文献

10.

稀疏正交联合约束多通道非负矩阵分解声信号分离算法

下载免费PDF全文

章雯张君王璐赵静鲍明许耀华《声学学报》2023,48(1):249-263

针对复杂环境下多通道声信号分离问题,提出稀疏正交联合约束多通道非负矩阵分解声信号分离方法。首先设计基于多通道扩展坂仓斋藤(Itakura-Saito,IS)散度的稀疏正交联合约束项构造代价函数,给出信号稀疏和信号正交约束辅助函数,实现代价函数最小化求解。然后通过迭代更新规则设计,得到稀疏正交优化的多通道非负矩阵分解基矩阵和系数矩阵,讨论了稀疏正交约束对基矩阵和系数矩阵稀疏性与连续性影响。最后基于多通道信号空间特性,进行了非负矩阵分解基聚类以获得多通道非负矩阵分解声信号的分离结果。双通道音频数据与四通道声学目标分离实验数据测试表明,对音频数据,所提算法在性能指标信号失真比(SDR)上提高了0.84dB,对于直升机声源数据,所提算法在SDR上提高了4.53dB。相似文献

11.

Noise-robust voice conversion based on joint dictionary optimization

ZHANG Shilei JIAN Zhihua SUN Minhong ZHONG Hua LIU Erxiao 《声学学报：英文版》2020,(2):259-272

A noise robust voice conversion algorithm based on joint dictionary optimization is proposed to effectively convert noisy source speech into the target one. In composition of the joint dictionary, speech dictionary is optimized using backward elimination algorithm. At the same time, a noise dictionary is introduced to match the noisy speech. The experimental results show that the backward elimination algorithm can reduce the number of dictionary frames and reduce the amount of calculation while ... 相似文献

12.

一种基于奇异谱的语音激活检测方法

下载免费PDF全文

曹亮张天骐周圣胡然《应用声学》2013,32(2):137-143

为了提高语音激活检测在低信噪比环境中的检测性能,提出了一种基于奇异谱的语音激活检测方法。首先用多窗口方法计算每一帧语音信号的相关矩阵;然后对相关矩阵进行奇异值分解;利用奇异值可以反映有用信号和噪声分布情况的特性,将每一帧语音信号经过加权处理后的最大奇异值与自适应阈值进行比较进行语音激活检测。该方法原理简单,易于硬件实现,通过实验仿真表明,在低信噪比环境下,和基于对数能量方法相比,本文方法也能够很好的区分语音段和非语音段,有良好的检测性能。相似文献

13.

基于平均模型和误差削减网络的语音转换系统*

下载免费PDF全文

王媛媛王新宇张明阳周锋赵力《应用声学》2023,42(3):620-626

现阶段用于语音转换的深度学习方法多是通过使用大量的训练数据来生成高质量的语音。本文提出了一种基于平均模型和误差削减网络的语音转换框架,可用于有限数量的训练数据。首先,基于CBHG网络的平均模型使用排除源说话人和目标说话人的多说话人语音数据进行训练;然后,在有限数量的目标语音数据下对平均模型执行自适应训练;最后,提出一种误差削减网络,可以进一步改善转换后语音的质量。实验表明,所提出的语音转换框架可以灵活地处理有限的训练数据,并且在客观和主观评估方面均优于传统框架。相似文献

14.

An optimal robust digital image watermarking based on SVD using differential evolution algorithm 总被引：1，自引：0，他引：1

Veysel Aslantas 《Optics Communications》2009,282(5):769-7232

The main objective in developing a robust image watermarking technique is to obtain the highest possible robustness without losing the transparency. To achieve this objective, this paper presents a new optimal robust image watermarking technique based on singular value decomposition (SVD) using differential evolution algorithm (DE). The singular values (SV) of the host image are modified by multiple scaling factors to embed a watermark image. The modifications are optimised using DE to achieve maximum robustness and transparency Experimental results show that the proposed approach can effectively improve the quality of the watermarked image and the robustness of the embedded watermark against various attacks. 相似文献

15.

Predominant environmental noise classification over sound mixing based on source-specific dictionary

María Guadalupe López-Pacheco Luis Pastor Sánchez-Fernández Herón Molina-Lozano Luis Alejandro Sánchez-Pérez 《Applied Acoustics》2016

This paper presents a methodology to classify predominant urban acoustic sources in real mixed signals. This is based on a source-specific dictionary with atoms in the time–frequency domain using the Orthogonal Matching Pursuit (OMP) algorithm and identifying the class through a proposed selection criterion with a dynamic number of iterations involving a lower algorithm complexity. Several time–frequency atoms were evaluated considering retained energy and relative error to build a source-specific dictionary in the relevant classes. The source-specific dictionary has better results up to 7% in retained energy than to use an individual dictionary such as based on wavelet or Gabor functions, improving classification of predominant sources over sound mixing up to 9% compared to using standard dictionaries. Experimental results on classification are applied to mixture inter-class signals of two or more sources recorded by a real permanent monitoring system in an urban soundscape. The classification performance has successfully achieved identifying a predominant source in real inter-class mixtures of urban soundscapes. 相似文献

16.

振动噪声等高图的电驱动桥噪声预测及优化*

下载免费PDF全文

钟秤平王轮郭峰王理周陈齐平高雅娜郭荣《应用声学》2024,43(3):561-566

在项目开发前期通过优化电驱动桥扭矩特性的设计,可以规避噪声大问题。根据电驱动桥台架在对应扭矩下的振动噪声特性,提出了一套稳定高效的测试流程和分析方法。首先设计了一套完整的试验流程,制定了精准的数据分析方法。然后绘制出能够全面反映电驱动桥振动噪声特性的等高图。最后利用电驱动桥台架的振动噪声等高图,准确评估电驱动桥加速工况下振动噪声风险,为主机厂和电驱动桥零部件企业提供电驱动桥扭矩特性设计前期指导。利用该方法成功识别到某电驱动桥匀速及加速工况下电机及齿轮的啸叫问题。通过优化电驱动桥扭矩特性设计,电机48阶噪声峰值降低了8.5dB(A),确认该方法准确可靠,具备推广应用价值。相似文献

17.

协方差矩阵重构的稳健自适应波束形成算法 总被引：2，自引：0，他引：2

下载免费PDF全文

王昊马启明《声学学报》2019,44(2):170-176

针对协方差矩阵含有期望信号成分以及波束指向角失配时,传统自适应波束形成器性能严重下降的问题,提出了协方差矩阵重构的稳健自适应波束形成算法。该算法将全空域划分成若干互不重叠的区域,分别对应干扰区域与信号区域,先利用Capon波束形成器对干扰区域积分,由此构造出干扰协方差矩阵。然后,利用标准Capon波束形成器的波束域MUSIC谱估计法对信号区域积分,重构出信号协方差矩阵,以其主特征向量作为期望信号导引向量估计。由于算法重构了干扰加噪声协方差矩阵并对导引向量进行了修正,保证了自适应波束形成器的性能。理论分析和仿真实验结果表明,算法在训练数据含有期望信号成分和波束指向角度失配情况下具有良好的性能。相似文献

18.

A new efficient two-channel backward algorithm for speech intelligibility enhancement: A subband approach

《Applied Acoustics》2014

This paper addresses the problem of speech intelligibility enhancement by adaptive filtering algorithms employed with subband techniques. The two structures named the forward and backward blind source separation structures are extensively used in the speech enhancement and source separation areas, and largely studied in the literature with convolutive and non-convolutive mixtures. These two structures use two-microphones to generate the convolutive/non-convolutive mixing signal, and provide at the outputs the target and the jammer signal components. In this paper, we focus our interest on the backward structure employed to enhance the speech signal from a convolutive mixture. Furthermore, we propose a subband implementation of this structure to improve its behavior with speech signal. The new proposed subband-Backward BSS (SBBSS) structure allows a very important improvement of the convergence speed of the adaptive filtering algorithms when the subband-number is selected high. In order to improve the robustness of the proposed subband structure, we have adapted then applied a new criterion that combines the System Mismatch and the Mean-Errors criterion minimization. The proposed subband backward structure, when it is combined with this new criterion minimization, allows to enhance the output speech signal by reducing the distortion and the noise components. The performance of the proposed subband backward structure is validated through several objective criteria which are given and described in this paper. 相似文献

19.

基于SPGD算法的非保偏-保偏光自适应偏振转换

董苏惠王小林粟荣涛马鹏飞周朴杨丽佳《强激光与粒子束》2015,27(05):051011

报道了一种基于随机并行梯度下降(SPGD)算法的高消光比非保偏-保偏光自适应偏振转换系统。该系统利用偏振控制器对非保偏光的偏振分量进行直接控制,通过SPGD算法对输出的偏振消光比进行优化,最终实现了自适应的非保偏-保偏光的偏振转换。理论上,结合SPGD算法和偏振控制器的原理,对系统进行分析,建立了非保偏-保偏光自适应偏振转换的数学模型。实验上,利用该系统实现了非保偏到保偏光的转换,获得了14.1 dB的线偏振光输出;并利用该系统将任意方向（0~360）偏振态的线偏振光转换为期望偏振态的高消光比线偏光,其输出线偏光的平均消光比约为12 dB。相似文献

20.

A traffic noise prediction method based on vehicle composition using genetic algorithms

Ö. Gündo?du M. Gökda? 《Applied Acoustics》2005,66(7):799-809

The effect of traffic composition on the noise pollution has been investigated in a small city Erzurum, located in eastern Turkey, where the population is about 400,000. Manual noise measurements and vehicle counts were performed at the four heaviest traffic points in the city for a period of 12 h. Using the information on vehicle composition and the maximum legal noise emissions of each type of vehicles, two prediction models based on genetic algorithms have been developed that can be used as tools for in-city traffic flow redesign. The models have been validated against some of the noise data. Measured traffic noise levels have been compared with predictions using the new models and some existing ones and a relatively good agreement has been obtained between them. 相似文献