首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到12条相似文献,搜索用时 62 毫秒
1.
针对在基于深度学习语音增强的方法中因采用因果式的网络输入导致语音增强性能下降的问题,提出了一种基于轻量级卷积门控循环神经网络(LCGRU)的语音增强方法。门控循环神经网络能够建模语音信号的时间相关性,但是其全连接结构破坏了语音信号的时频结构特征,并且参数数量庞大,不利于网络的训练。对此,本文采用卷积核替代门控循环神经网络中的全连接结构,在对语音信号时间相关性建模的同时保留了语音信号的时频结构特征,同时降低了网络的参数数量。为充分利用先前帧的特征信息,该网络单元当前时刻的输入融合了上一时刻的输入与输出。针对网络训练过程中容易产生过拟合的问题,本文采用了线性门控机制来控制信息的传输,这缓解了网络训练过程中的过拟合问题,提高了网络的语音增强性能。实验结果表明,本文所提出的网络结构在增强后的语音感知质量(PESQ),语音短时客观可懂度(STOI),分段信噪比(SSNR)等指标上均优于传统的网络结构。  相似文献   

2.
显著性目标检测是机器视觉领域的研究热点,具有广泛的应用前景。针对现有显著性目标检测算法存在的显著区域检测不均匀、边缘表示模糊等问题,提出一种双注意力循环卷积显著性目标检测算法。在U-Net全卷积骨干网络中添加像素间-通道间双注意力模块,在跨层连接前对底层特征进行预处理,减小噪声和杂波干扰,提高显著区域检测性能。在骨干网络后端使用循环卷积模块,将最后的预测图与底层卷积层特征进一步结合,增强预测区域边缘的表示效果。在三个公开数据集上进行实验评测,并与相关算法进行对比,结果表明所提算法能更好地均匀突显显著区域和细化区域边缘。  相似文献   

3.
路成  田猛  周健  王华彬  陶亮 《声学学报》2017,42(3):377-384
为了刻画语音信号帧间相关性和使用更少的语音基表示语音特征,提出一种采用L1/2稀疏约束的卷积非负矩阵分解方法进行单通道语音增强。首先,进行噪声学习得到噪声基;然后,以噪声基为先验信息结合L1/2稀疏约束卷积非负矩阵分解方法学习含噪语音中的语音基成分;最后,利用学习到的语音基和系数重建出干净语音信号。在不同噪声环境下进行的实验结果表明,本文方法优于采用L1稀疏约束的卷积非负矩阵方法及传统的统计语音增强方法。   相似文献   

4.
如何从带噪语音信号中恢复出干净的语音信号一直都是信号处理领域的热点问题。近年来研究者相继提出了一些基于字典学习和稀疏表示的单通道语音增强算法,这些算法利用语音信号在时频域上的稀疏特性,通过学习训练数据样本的结构特征和规律来构造相应的字典,再对带噪语音信号进行投影以估计出干净语音信号。针对训练样本与测试数据不匹配的情况,有监督类的非负矩阵分解方法与基于统计模型的传统语音增强方法相结合,在增强阶段对语音字典和噪声字典进行更新,从而估计出干净语音信号。本文首先介绍了单通道情况下语音增强的信号模型,然后对4种典型的增强方法进行了阐述,最后对未来可能的研究热点进行了展望。  相似文献   

5.
为提高复杂背景和噪声干扰下红外小目标检测性能,提出了融合深度神经网络和视觉目标显著性的单阶段红外小目标检测算法.首先设计了基于编码器-解码器架构的轻量级全卷积神经网络对红外图像进行分割,实现背景抑制和目标增强;然后利用红外小目标的显著性特征进一步抑制虚警;最后采用自适应阈值法分离出小目标.网络结构中通过引入多个下采样层降低计算量并增大感受野;通过引入多尺度特征提升背景抑制能力;通过引入注意力机制提升模型训练效果.在真实红外图像上的测试表明,本文算法在检测率、虚警率和运算时间等方面都优于典型红外小目标检测算法,适合进行复杂背景下的红外小目标检测.  相似文献   

6.
提出了一种使用自适应增强学习的深层卷积神经网络方法对水声目标线谱进行提取。该方法利用构造的多尺度ConvNeXt算子建立滑动窗深层卷积神经网络模型(SwDCNN),设计涵盖损失函数、学习率更新和模型迭代优化的自适应增强学习准则并用于模型训练。仿真和海试数据验证结果表明,所提方法有以下优点:(1)卷积算子和模型结构参数按线谱提取需求配置,可以增强LOFAR谱图特征高性能多分辨力挖掘能力;(2)大规模数据下的模型训练可实现渐进式精确拟合,有助于提升模型收敛效果;(3)模型可有效提取低信噪比、中断、弯曲漂移、粗细不均、邻近成簇、密集分布等复杂情况下的线谱,在查全率、查准率、虚警率、线谱位置精度(LLA)和线谱幅值精度(LAA)等指标上均优于文中其他深度神经网络方法;(4)和传统及其他文中所用的深度神经网络方法相比,线谱最小可检测信噪比分别降低超过5 dB和2 dB,实际复杂场景线谱提取能力更强,综合效果更好。  相似文献   

7.
网络故障的及时诊断能够保证日常工作、学习和生活能够正常进行。传统的基于监督式学习的诊断方法依赖于大量具有鉴别意义的样本,这在实际情况中通常难以得到满足。针对上述问题,本文提出了一种基于直推式学习的诊断算法。针对大规模的网络管理的特征数据,本算法利用主成分分析对特征进行降维,并利用新的度量下的特征数据来构建拉普拉斯矩阵;该矩阵能够很好的描述带检测样本和训练样本之间的关系。在此基础上,本文设计了基于直推式学习的目标函数,并利用拉格朗日乘子法完成了优化。实验部分证明了本算法能够在有限数目的带标签的样本的前提下获得精确的分类结果,能够显著提高网络故障诊断的检测率。  相似文献   

8.
许允喜  蒋云良  陈方 《光子学报》2014,40(5):758-763
摄像机间目标关联是无重叠视域多摄像机目标持续跟踪的关键.提出了一种只利用人体目标外观,完全不依赖于空时关系的人体目标再识别算法,利用识别结果直接进行跨摄像机间人体目标关联,而不依赖于目标的捕获时间和路径限制.对跟踪视频前景图像序列提取互补性视觉单词树直方图和全局颜色直方图二种特征,采用支持向量机增量学习在线训练二种特征的人体外观辨别模型,再利用多类线性规划增强算法对二种特征的支持向量机模型进行在线自适应融合.实验结果表明,本文算法具有较强的在线学习能力,能增量式表达人体目标辨别性外观模型,特征融合后的模型区别性更强,有效地降低多方面条件变化的影响,获得了高识别率,且能够实现快速实时实现,相对于现有方法有了明显提升.  相似文献   

9.
摄像机间目标关联是无重叠视域多摄像机目标持续跟踪的关键.提出了一种只利用人体目标外观,完全不依赖于空时关系的人体目标再识别算法,利用识别结果直接进行跨摄像机间人体目标关联,而不依赖于目标的捕获时间和路径限制.对跟踪视频前景图像序列提取互补性视觉单词树直方图和全局颜色直方图二种特征,采用支持向量机增量学习在线训练二种特征的人体外观辨别模型,再利用多类线性规划增强算法对二种特征的支持向量机模型进行在线自适应融合.实验结果表明,本文算法具有较强的在线学习能力,能增量式表达人体目标辨别性外观模型,特征融合后的模型区别性更强,有效地降低多方面条件变化的影响,获得了高识别率,且能够实现快速实时实现,相对于现有方法有了明显提升.  相似文献   

10.
噪声估计的准确性直接影响语音增强算法的好坏,为提升当前语音增强算法的噪声抑制效果,有效求解无约束优化问题,提出一种联合深度神经网络(DNN)和凸优化的时频掩蔽优化算法进行单通道语音增强。首先,提取带噪语音的能量谱作为DNN的输入特征;接着,将噪声与带噪语音的频带内互相关系数(ICC Factor)作为DNN的训练目标;然后,利用DNN模型得到的互相关系数构造凸优化的目标函数;最后,联合DNN和凸优化,利用新混合共轭梯度法迭代处理初始掩蔽,通过新的掩蔽合成增强语音。仿真实验表明,在不同背景噪声的低信噪比下,相比改进前,新的掩蔽使增强语音获得了更好的对数谱距离(LSD)、主观语音质量(PESQ)、短时客观可懂度(STOI)和分段信噪比(segSNR)指标,提升了语音的整体质量并且可以有效抑制噪声。  相似文献   

11.
Infrared dim and small target tracking is a great challenging task. The main challenge for target tracking is to account for appearance change of an object, which submerges in the cluttered background. An efficient appearance model that exploits both the global template and local representation over infrared image sequences is constructed for dim moving target tracking. A Sparsity-based Discriminative Classifier (SDC) and a Convolutional Network-based Generative Model (CNGM) are combined with a prior model. In the SDC model, a sparse representation-based algorithm is adopted to calculate the confidence value that assigns more weights to target templates than negative background templates. In the CNGM model, simple cell feature maps are obtained by calculating the convolution between target templates and fixed filters, which are extracted from the target region at the first frame. These maps measure similarities between each filter and local intensity patterns across the target template, therefore encoding its local structural information. Then, all the maps form a representation, preserving the inner geometric layout of a candidate template. Furthermore, the fixed target template set is processed via an efficient prior model. The same operation is applied to candidate templates in the CNGM model. The online update scheme not only accounts for appearance variations but also alleviates the migration problem. At last, collaborative confidence values of particles are utilized to generate particles' importance weights. Experiments on various infrared sequences have validated the tracking capability of the presented algorithm. Experimental results show that this algorithm runs in real-time and provides a higher accuracy than state of the art algorithms.  相似文献   

12.
The dim moving target usually submerges in strong noise, and its motion observability is debased by numerous false alarms for low signal-to-noise ratio. A tracking algorithm that integrates the Guided Image Filter (GIF) and the Convolutional neural network (CNN) into the particle filter framework is presented to cope with the uncertainty of dim targets. First, the initial target template is treated as a guidance to filter incoming templates depending on similarities between the guidance and candidate templates. The GIF algorithm utilizes the structure in the guidance and performs as an edge-preserving smoothing operator. Therefore, the guidance helps to preserve the detail of valuable templates and makes inaccurate ones blurry, alleviating the tracking deviation effectively. Besides, the two-layer CNN method is adopted to obtain a powerful appearance representation. Subsequently, a Bayesian classifier is trained with these discriminative yet strong features. Moreover, an adaptive learning factor is introduced to prevent the update of classifier’s parameters when a target undergoes sever background. At last, classifier responses of particles are utilized to generate particle importance weights and a re-sample procedure preserves samples according to the weight. In the predication stage, a 2-order transition model considers the target velocity to estimate current position. Experimental results demonstrate that the presented algorithm outperforms several relative algorithms in the accuracy.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号