期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

蓝天惠国强李萌吕忆蓝刘峤《声学学报》2020,45(6):897-905

提出了采用上下文相关的注意力机制及循环神经网络的语音增强方法。该方法在训练阶段联合训练计算注意力评分的多层感知机和增强语音的深度循环网络,在测试阶段计算每一帧语音的注意力向量并与该帧语音拼接输入深度循环网络增强。在不同信噪比的实验中,该方法相比基线模型能更好地提高语音质量和可懂度,-6 dB下相对带噪语音短时客观可懂度(STOI)和语音质量感知评估(PESQ)可分别提高0.16和0.77,同时在未知噪声条件下该方法性能仍最优或接近最优。因此注意力机制可以有效强化模型对上下文信息的利用能力,从而提高模型增强性能。相似文献

2.

结合注意力机制的改进U-Net网络在端到端语音增强中的应用

下载免费PDF全文

武瑞沁陈雪勤俞杰王丽荣赵鹤鸣《声学学报》2022,47(2):266-275

设计了一个适用于端到端语音增强的改进的U-Net (Attention Dilated Convolution U-Net,ADC-U-Net)网络模型.与基线U-Net网络相比,一方面通过加入空洞卷积减小由采样带来的信息损失;另一方面引入了注意力机制结构,结合了含噪语音更多的上下文信息,提取更深层次和更丰富的特征信息... 相似文献

3.

U-net网络中融合多头注意力机制的单通道语音增强EI北大核心CSCD

下载免费PDF全文

范君怡杨吉斌张雄伟郑昌艳《声学学报》2022,47(6):703-716

在低信噪比和突发背景噪声条件下,已有的深度学习网络模型在单通道语音增强方面效果并不理想,而人类可以利用语音的长时相关性对不同的语音信号形成综合感知。因此刻画语音的长时依赖关系有助于改进低信噪比和突发背景噪声下的增强性能。受该特性的启发,提出一种融合多头注意力机制和U-net深度网络的增强模型TU-net,实现基于时域的端到端单通道语音增强。TU-net网络模型采用U-net网络的编解码层对带噪语音信号进行多尺度特征融合,并利用多头注意力机制实现双路径Transformer,用于计算语音掩模,更好地建模长时相关性。该模型在时域、时频域和感知域计算损失函数,并通过加权组合损失函数指导训练。仿真实验结果表明,TU-net在低信噪比和突发背景噪声条件下增强语音信号的语音质量感知评估(PESQ)、短时客观可懂度(STOI)和信噪比增益等多个评价指标都优于同类的单通道增强网络模型,且保持相对较少的网络模型参数。相似文献

4.

在波形网络中融合相位信息的骨导语音增强 总被引：3，自引：0，他引：3

下载免费PDF全文

郑昌艳杨吉斌张雄伟孙蒙《声学学报》2021,46(2):309-320

已有骨导语音增强算法重点关注语音幅度谱增强,在波形合成时会因为相位不匹配导致语音质量下降。为解决该问题,提出了一种融合相位信息的波形网络(WaveNet)模型实现骨导语音增强波形生成。该方法以频带扩展WaveNet为基础,融合骨导语音相位谱信息与增强的语音幅度谱作为模型的条件特征,根据融合特征生成增强语音波形,实现了相位信息的有效利用。仿真实验综合对比了群时延谱和瞬时频率偏差谱相位特征,主客观结果表明,不论是采用串联融合还是卷积融合方式,骨导语音相位信息均有效补充了原有幅度谱条件特征,改善了语音增强效果。利用串联方式融合群时延谱特征可得到最佳结果,相比于原始骨导语音,平均意见得分(MOS)提升了约54.3%。相似文献

5.

联合深度编解码网络和时频掩蔽估计的单通道语音增强 总被引：1，自引：0，他引：1

下载免费PDF全文

时文华张雄伟邹霞孙蒙李莉《声学学报》2020,45(3):299-307

提出了一种联合深度编解码神经网络和时频掩蔽估计的语音增强方法。该方法利用深度编解码网络估计时频掩蔽表示,并联合带噪语音的幅度谱学习带噪语音与纯净语音幅度谱之间的非线性映射关系。深度编解码网络采用卷积-反卷积网络结构。在编码端,利用卷积网络的局部感知特性,对带噪语音的时频域结构特征进行建模,提取语音特征,同时抑制背景噪声。在解码端,利用编码端提取到的语音特征逐层恢复局部细节信息并重构语音信号。同时,在编解码端对应层之间引入跳跃连接,以减少由于池化和全连接操作导致的低层细节信息丢失的问题。在TIMIT语音库和不完全匹配噪声集下进行仿真实验,实验结果表明,该方法可以有效抑制噪声,且能较好地恢复出语音细节成分。相似文献

6.

融合注意力和Inception模块的脑白质病变端到端分割

《光学学报》2021,41(9):53-62

针对目前磁共振脑影像上脑白质高信号区域的自动分割存在分割精度较低和细小病灶易漏识等问题,提出一种融合注意力和Inception的U-Net分割模型。在U-Net的编码阶段加入Inception模块以增加网络宽度,使其具有多尺度特征的提取能力,并加入注意力模块以增强网络对分割目标的关注度,两者的加入和融合可以有效提升网络的特征提取和表达能力。同时,在解码阶段的每一个卷积层上增加残差连接,可以提高网络的优化速度。此外,针对样本不均衡易导致分割结果中假阴性过多的问题,采用具有均衡调节能力的Tversky损失函数优化网络训练。实验结果表明,所提方法能够较好地分割脑白质的高信号区域,特别是小病灶区,且各项分割指标优于多个对比方法。相似文献

7.

增强小目标特征的多尺度光学遥感图像目标检测

单慧琳王硕洋童俊毅胡宇翔张雁皓张银胜《光学学报》2024,(6):382-394

针对光学遥感图像目标分布密集、尺度变化范围较大及小目标特征信息过少等造成目标检测精度不高、泛化能力差等问题,本文提出了一种增强小目标特征的多尺度神经网络（ESF-MNet）。首先在骨干网络中引入注意力模块构建出高效层注意力聚合结构,以增强特征提取能力;此外,在浅层特征图与颈部网络融合之前加入感受野增强模块,以捕获不同尺度的上下文信息。其次,使用GSConv构成颈部网络,减少网络层参数量,保持网络的特征提取能力,并通过基于内容感知的特征重组模块提高识别精度。最后,采用下采样率分别为4、8和16倍的三个下采样模块作为头部网络输入,来提高小目标的检测效果。为了证明该方法的有效性,在DOTA数据集和NWPU NHR-10数据集上进行实验,平均检测精度分别达78.6%和94.3%,计算复杂度为94.7 G,整体模型大小为26.2 M。该方法具备检测精度高、计算复杂度低、模型权重小等特点,能有效提高小目标的检测精度,进一步改善光学遥感图像小目标检测性能。相似文献

8.

基于多尺度特征增强的合成孔径光学图像复原

下载免费PDF全文

张银胜童俊毅陈戈单梦姣王硕洋单慧琳《物理学报》2024,(6):141-153

受物理孔径大小和光线散射等影响,合成孔径光学系统成像因通光面积不足和相位失真而出现降质模糊.传统合成孔径光学系统成像复原算法对噪声敏感,过于依赖退化模型,自适应性差.对此提出一种基于生成对抗网络的光学图像复原方法,采用U-Net结构获取图像多级尺度特征,利用基于自注意力的混合域注意力提高网络在空间、通道上的特征提取能力,构造多尺度特征融合模块和特征增强模块,融合不同尺度特征间的信息,优化了编解码层的信息交互方式,增强了整体网络对原始图像真实结构的关注力,避免在复原过程中被振铃现象产生的伪影干扰.实验结果表明,与其他现有方法相比,该方法在峰值信噪比、结构相似性和感知相似度评估指标上分别提高了1.51%, 4.42%和5.22%,有效解决合成孔径光学系统成像结果模糊退化的问题. 相似文献

9.

基于改进U-Net++的CT影像肺结节分割算法

黄鸿吕容飞陶俊利李远张久权《光子学报》2021,50(2):65-75

卷积神经网络的语义分割模型未有效利用特征权重信息,导致在医学图像复杂场景中分割边界出现欠分割现象。针对该问题,基于融合自适应加权聚合策略提出一种改进的U-Net++网络,并将其应用于电子计算机断层扫描影像肺结节分割。该模型首先在卷积神经网络中提取出不同深度特征语义级别的信息,再结合权重聚合模块,自适应地学习各层特征的权重,然后将学习得到的权重加载到各个特征层上采样得到的分割图以得到最终的分割结果。在LIDC数据集和重庆大学附属肿瘤医院肺部电子计算机断层扫描数据集上进行了分割实验,所提方法的交叉比在两个数据集上分别可达到80.59%和87.40%、骰子系数分别可达到88.23%和90.83%。相比U-Net和U-Net++方法,该算法有效提升了图像分割性能。本文方法能在肿瘤微小细节上实现精确分割,较好地解决了肺结节向周围浸润性生长时出现欠分割的问题。相似文献

10.

基于轻量级卷积门控循环神经网络的语音增强方法*

下载免费PDF全文

王玫李江和宋浠瑜刘小娟《应用声学》2023,42(3):652-658

针对在基于深度学习语音增强的方法中因采用因果式的网络输入导致语音增强性能下降的问题,提出了一种基于轻量级卷积门控循环神经网络(LCGRU)的语音增强方法。门控循环神经网络能够建模语音信号的时间相关性,但是其全连接结构破坏了语音信号的时频结构特征,并且参数数量庞大,不利于网络的训练。对此,本文采用卷积核替代门控循环神经网络中的全连接结构,在对语音信号时间相关性建模的同时保留了语音信号的时频结构特征,同时降低了网络的参数数量。为充分利用先前帧的特征信息,该网络单元当前时刻的输入融合了上一时刻的输入与输出。针对网络训练过程中容易产生过拟合的问题,本文采用了线性门控机制来控制信息的传输,这缓解了网络训练过程中的过拟合问题,提高了网络的语音增强性能。实验结果表明,本文所提出的网络结构在增强后的语音感知质量(PESQ),语音短时客观可懂度(STOI),分段信噪比(SSNR)等指标上均优于传统的网络结构。相似文献

11.

面向自定义语音唤醒的关键词相关的单通道语音增强

下载免费PDF全文

刘作桢吴愁黎塔赵庆卫《声学学报》2023,48(2):415-424

提出一种面向自定义语音唤醒的单通道语音增强方法。该方法预先将关键词音素信息存入文本编码矩阵,并在常规语音增强模型基础上添加一个基于注意力机制的音素偏置模块。该模块利用语音增强模型中间特征从文本编码矩阵中获取当前帧的音素信息,并将其融入语音增强模型的后续计算中,从而提升语音增强模型对关键词相关音素的增强效果。在不同噪声环境下的实验结果表明,该方法可以更有效地抑制关键词部分噪声。同时所提出方法对比常规语音增强方法与其他文本相关语音增强方法,在自定义语音唤醒性能上可以分别获得14.3%和7.6%的相对提升。相似文献

12.

注意力机制融合前端网络中间层的语声情感识别

下载免费PDF全文

朱应俊周文君朱川马建敏《应用声学》2023,42(5):1090-1098

为了使机器能够更好地理解人的情感并改善人机交互体验,可对语声特征及分类网络进行融合以提升情感识别性能。本文从网络融合的角度,把基于梅尔倒谱系数和逆梅尔倒谱系数的二维卷积神经网络和基于散射卷积网络系数的长短期记忆网络作为前端网络,提取前端网络的中间层作为话语级的特征表示,利用压缩-激励(SE)通道注意力机制对前端网络的中间层的权重进行调整并融合,然后由深度神经网络后端分类器输出情感分类结果。在汉语情感数据集中进行五折交叉验证的对比实验,实验结果表明,基于SE通道注意力机制的网络融合方式可以有效地利用不同前端网络在语声情感识别任务中的优势,提高语声情感识别的准确率。相似文献

13.

A two-microphone dual delay-line approach for extraction of a speech sound in the presence of multiple interferers.

C Liu B C Wheeler W D O'Brien C R Lansing R C Bilger D L Jones A S Feng 《The Journal of the Acoustical Society of America》2001,110(6):3218-3231

相似文献

14.

小波包自适应阈值语音降噪新算法

下载免费PDF全文

田玉静左红伟董玉民王超《应用声学》2011,30(1):72-80

为了克服低信噪比输入下,语音增强造成语音清音中的弱分量损失,造成重构信号包络失真的问题。论文提出了一种新的语音增强方法。该方法根据语音感知模型,采用不完全小波包分解拟合语音临界频带,并对语音按子带能量进行清浊音区分处理,在阈值计算上,提出了一种清浊音分离,基于子带信号能量的小波包自适应阈值算法。通过仿真实验,客观评测和听音测试表明,该算法在低信噪比输入时较传统算法,能够更加有效地减少重构信号包络失真,在不损伤语音清晰度和自然度的前提下,使输出信噪比明显提高。将该算法与能量谱减法结合,进行二次增强能进一步提高降噪输出的语音质量。相似文献

15.

双层弹性支撑板的水下宽带隔声 总被引：1，自引：1，他引：0

下载免费PDF全文

张超韩玉苑商德江李斯慧《声学学报》2021,46(6):1212-1222

为实现水下宽带隔声,提出了一种由弹性元件支撑两块刚性端板构成的双层弹性支撑板结构。采用弹簧振子振动分析法和声传播理论,建立了平面波入射的水下隔声理论模型,分析了结构参数对隔声量的影响规律,结果表明足够小的弹性元件单位面积弹性系数或足够大的端板单位面积质量都可以连续一致地提高隔声量.仿真分析了双层弹性支撑板的振动位移和声输入阻抗,比较了双层弹性支撑板与连续介质层的隔声特性,结果表明,降低弹性元件质量,有助于在低频段消除半波全透射现象.在同厚度、同质量、同静态压缩率条件下,双层弹性支撑板能更好的降低两侧流体的振动及声耦合,隔声频带更宽,带内一致性更好,隔声量更大. 相似文献