首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
为了增强网络对鸟鸣声信号的特征学习能力并提高识别精度,提出一种基于深度残差收缩网络和扩张卷积的鸟声识别方法。首先,提取鸟鸣声信号的对数梅尔特征及其一阶和二阶差分系数组成logMel特征集作为网络模型的输入;其次,通过深度残差收缩网络自动学习噪声阈值,减少噪声干扰;然后,引入扩张卷积增大卷积核感受野并利用注意力机制使网络更关注关键帧特征;最后,通过双向长短时记忆网络从学到的局部特征中学习长期依赖关系。以百鸟数据birdsdata鸟声库中的19种中国常见鸟类作为实验对象,识别正确率可以达到96.58%,并对比模型在不同信噪比数据下的识别结果,结果表明该模型在噪声环境下的识别效果优于现有模型。  相似文献   

2.
徐冬冬 《应用声学》2021,40(2):194-199
具有自注意机制的Transformer网络在语声识别研究领域渐渐得到广泛关注.该文围绕着将位置信息嵌入与语声特征相结合的方向,研究更加适合普通话语声识别模型的位置编码方法.实验结果得出,采用卷积编码的输入表示代替正弦位置编码,可以更好地融合语声特征上下文联系和相对位置信息,获得较好的识别效果.训练的语声识别系统是在Tr...  相似文献   

3.
施丽红 《光学技术》2020,(6):750-756
针对复杂环境下动态手势识别准确率低的问题,提出了一种基于长短期记忆网络和卷积神经网络的动态手势识别算法。采用长短期记忆网络学习每个滤波器的权重,预测人体外形相关的滤波器组;采用卷积神经网络提取目标手势的轨迹图,创建彩色的轨迹图像;将轨迹图像送入注意力卷积神经网络训练,利用神经网络识别出复杂环境下的手势。实验结果表明,该算法能够准确地检测与跟踪手势的动态变化,并且实现了较好的手势识别准确性。  相似文献   

4.
基于可见光谱的农作物病害自动化识别和诊断是一个具有挑战性的研究领域,但现有基于卷积神经网络进行病害识别的研究往往利用深层网络牺牲模型参数量来提高对单一农作物病害识别的准确率,从而造成硬件资源的浪费.为提高农作物病害识别的准确率且避免深层网络的使用,该研究将注意力机制引入农作物病害识别领域,提出了一种基于可见光谱和改进注...  相似文献   

5.
针对卷积神经网络在步态识别时准确率易饱和现象,以及Vision Transformer(ViT)对步态数据集拟合效率较低的问题,提出构建一个对称双重注意力机制模型,保留行走姿态的时间顺序,用若干独立特征子空间有针对性地拟合步态图像块;同时,采用对称架构的方式,增强注意力模块在拟合步态特征时的作用,并利用异类迁移学习进一步提升特征拟合效率。将该模型运用在中科院CASIA C红外人体步态库中进行多次仿真实验,平均识别准确率达到96.8%。结果表明,本文模型在稳定性、数据拟合速度以及识别准确率3方面皆优于传统ViT模型和CNN对比模型。  相似文献   

6.
针对YOLOv4目标检测网络结构复杂,参数量以及计算量大等问题,提出了一种轻量化目标检测算法(YOLOv4-GC)。首先,使用ghostnet结构替换原始YOLOv4的主干网络,降低了获取冗余特征图像的计算量,在SPP与PANet模块中使用深度可分离卷积,使模型的计算量和参数量比原始YOLOv4分别降低82%和80%;再结合PyConv多尺度卷积设计出Py-PANet金字塔结构,提高了模型对于图像特征的提取和融合能力。在Pascal VOC数据集上的实验结果表明,在保证模型精度的情况下模型的参数量和计算量相比原始有明显降低。  相似文献   

7.
张帆  张良  刘星  张宇 《应用声学》2017,25(12):259-262
摘 要: 手写汉字识别是模式识别与机器学习的重要研究方向和应用领域。近年来,随着深度学习理论方法的完善、新技术的层出不穷,深度神经网络在图像识别分类、图像生成等典型应用中取得了突破性的进展,其中,深度残差网络作为最新的研究成果,已成功应用于手写数字识别、图片识别分类等多个领域。本文将研究深度残差网络在脱机孤立手写汉字识别中的应用方法,通过改进残差学习模块的单元结构,优化深度残差网络性能,同时通过对训练集的预处理,从数据层面实现训练生成模型性能的提升,最后设计实验,验证深度残差网络、End-to-End模式在脱机手写汉字识别中的可行性,分析、总结存在的问题及今后的研究方向。  相似文献   

8.
建立权重独立的双通道残差卷积神经网络,对可见光与红外频段下的目标图像进行特征提取,生成多尺度复合频段特征图组.基于像点间的欧式距离计算双频段特征图显著性,根据目标在不同成像频段下的特征贡献值进行自适应融合.通过热源能量池化核与视觉注意力机制,分别生成目标在双频段下的兴趣区域逻辑掩码并叠加在融合图像上,凸显目标特征并抑制...  相似文献   

9.
朱应俊  周文君  朱川  马建敏 《应用声学》2023,42(5):1090-1098
为了使机器能够更好地理解人的情感并改善人机交互体验,可对语声特征及分类网络进行融合以提升情感识别性能。本文从网络融合的角度,把基于梅尔倒谱系数和逆梅尔倒谱系数的二维卷积神经网络和基于散射卷积网络系数的长短期记忆网络作为前端网络,提取前端网络的中间层作为话语级的特征表示,利用压缩-激励(SE)通道注意力机制对前端网络的中间层的权重进行调整并融合,然后由深度神经网络后端分类器输出情感分类结果。在汉语情感数据集中进行五折交叉验证的对比实验,实验结果表明,基于SE通道注意力机制的网络融合方式可以有效地利用不同前端网络在语声情感识别任务中的优势,提高语声情感识别的准确率。  相似文献   

10.
《光学技术》2021,47(1):113-119
为了提高视频识别领域中微表情识别的准确率,提出了一种基于长短期记忆网络与特征融合的微表情识别算法。提取微表情图像的颜色特征和纹理特征,将所提取的空间特征传入卷积神经网络进行融合。设计了学习时域相关性的长短期记忆网络结构,将融合的特征集传入长短期记忆网络学习微表情的时域特征,将长短期记忆网络接入分类器网络识别出微表情的类标签。在两个公开的微表情识别数据集上完成了验证实验,结果显示算法实现了较好的微表情识别性能,在SMIC数据集和CASMEⅡ数据集上的准确率分别达到64.7%和65.8%.  相似文献   

11.
陈清江  王巧莹 《应用光学》2023,44(2):337-344
针对现有的基于卷积神经网络的图像去模糊算法存在图像纹理细节恢复不清晰的问题,提出了一种基于多局部残差连接注意网络的图像去模糊算法。首先,采用一个卷积层进行浅层特征提取;其次,设计了一种新的基于残差连接和并行注意机制的多局部残差连接注意模块,用于消除图像模糊并提取上下文信息;再次,采用一个基于扩张卷积的成对连接模块进行细节恢复;最后,利用一个卷积层重建清晰图像。实验结果表明:在GoPro数据集上的PSNR (peak signal to noise ratio)和SSIM (structure similarity)分别为31.83 dB、0.927 5,在定性和定量两方面都表明所提方法能够有效地恢复模糊图像的纹理细节,网络性能优于对比方法。  相似文献   

12.
曾宇  户文成 《应用声学》2020,39(3):409-416
针对公共场所异常声的感知和识别问题,提出一种基于贝叶斯优化卷积神经网络的识别方法。提取声信号的Gammatone倒谱系数、倍频程功率谱、短时能量和谱质心,组合成声信号的特征图。构建卷积神经网络作为分类器,利用递增的卷积核设置和池化操作处理不同尺度的特征。基于贝叶斯优化算法优化卷积神经网络的模型参数,对包括火苗噼啪声、婴儿啼哭声、烟花燃放声、玻璃破碎声和警报声的5种公共场所异常声进行识别。该方法的识别结果与基于不同的特征提取和分类器方案得到的识别结果进行比较,结果表明该方法的识别效果优于其他特征提取和分类器方案的识别效果。最后分析了该方法在不同信噪比噪声干扰下的识别结果,验证了该方法的有效性。  相似文献   

13.
Automatic modulation recognition (AMR) can be used in dynamic spectrum access (DSA) techniques to reduce the pressure on spectrum resources. In this paper, we propose a multiscale convolution-based network model called MSNet-SF, which combines traditional statistical features and deep learning (DL) to balance recognition accuracy and complexity. In the model, the feature information is extracted by two multiscale modules, which consist of unit convolution and three different sizes of convolution kernels arranged in parallel. Additionally, the sparse connectivity of unit convolution enables the network to be more lightweight. Five statistical features (four higher-order cumulants (HOCs) and one zero-centered normalized instantaneous magnitude tightness) are also input into the model and are fully fused with the main feature map by multiplication to achieve complementarity of long-term and short-term features. This approach yields a large performance gain at a small cost and greatly reduces the confusion between QAM16 and QAM64. Simulation results in the RML2018.10A dataset show that the average recognition accuracy of the model improved by 4% after adding the statistical features and achieved an accuracy of more than 97% from 12 dB.  相似文献   

14.
说话人识别技术是一项重要的生物特征识别技术。近年来,使用深度神经网络提取发声特征的说话人识别算法取得了突出成果。时延神经网络作为其中的典型代表之一已被证明具有出色的特征提取能力。为进一步提升识别准确率并节约计算资源,通过对现有的说话人识别算法进行研究,提出一种带有注意力机制的密集连接时延神经网络用于说话人识别。密集连接的网络结构在增强不同网络层之间的信息复用的同时能有效控制模型体积。通道注意力机制和帧注意力机制帮助网络聚焦于更关键的细节特征,使得通过统计池化提取出的说话人特征更具有代表性。实验结果表明,在VoxCeleb1测试数据集上取得了1.40%的等错误率(EER)和0.15的最小检测代价标准(DCF),证明了在说话人识别任务上的有效性。  相似文献   

15.
阴法明  赵焱  赵力 《应用声学》2019,38(1):39-44
为提高连续语音识别中的音素识别率,提出一种基于改进并行回火训练的受限波尔兹曼机的音素识别算法。首先,利用经过等能量划分后的改进并行回火算法来训练受限玻尔兹曼机,接着将受限玻尔兹曼机堆叠组成一个深信度网络,从而作为深度神经网络预训练的基础模型,然后通过softmax层输出,得到用于音素状态后验概率检测的深度神经网络。接着,利用少量的标签数据,根据反向传播算法对网络权重进行微调。最后,将所得后验概率作为隐马尔科夫的发射概率,然后利用Viterbi解码器实现音素识别。在TIMIT语料库上的实验表明,识别率相比于传统的对比散度类算法提高了约4.5%,在不增加计算量的情况下比原始并行回火算法提高约1%。  相似文献   

16.
杨俊杰  丁家辉  杨柳  冯丽  杨超 《应用声学》2024,43(3):513-524
环境声分类技术在家居安全监测、人机语音交互等领域具有关键作用。然而,声源的多样性与混合性给环境声分类方法设计带来了重大挑战。为提高分类准确率与节约计算资源,本文提出一种基于多尺度通道注意力机制下的深度学习分类模型。所提模型由特征提取模块、多尺度卷积模块、高效通道注意力模块、输出层四部分组成。首先,通过引入加权型梅尔Gammatone频率倒谱系数挖掘环境声频谱幅值与相位结构信息;其次,融合多尺度卷积核与高效通道注意力机制优选出音频关键局部细节和通道特征;最后,在全连接层采用softmax函数映射特征并输出环境声类型的概率值。所提模型在6种环境声的iFLYTEK、10种环境声的Urbansound8k数据集上开展测试验证,分别取得了94%、76.52%、79.24%(iFLYTEK+Urbansound8k)的分类准确率。消融实验结果进一步表明:引入的多尺度卷积模块、通道注意力机制模块对分类准确率的提升贡献率分别接近于3.77%和1.89%。实验还详细对比了7种现有的深度学习分类方法,所提算法在分类准确率上排名第二;另外, 在同级别算法中如ResNet18、GoogLeNet,所提算法在模型参数量和计算复杂度方面上实现了进一步的约减。  相似文献   

17.
With the rapid progress in artificial intelligence technology in recent years, deep learning has gradually become the main method in the field of radar signal automatic modulation recognition (AMR). Under harsh condition of lower signal–noise ratio (SNR), extracting the useful features of the noisy radar signal in the time or the time–frequency domain is extremely difficult because of serious noise corruption of the clean radar signals. Considering the complex-valued characteristic of radar signal, we propose an attention-guided complex denoising network (ACDNet) that consists of denoising and recognition modules. By utilizing the denoising module, we can estimate denoised signal in the noisy background, and thus the more distinctive features of the clean signal are extracted. The recognition module uses the extracted information to complete the modulation recognition task. Furthermore, squeeze-and-excitation blocks (channel attention mechanism) and the network are merged to guide the network to obtain more efficient performance. The experimental results demonstrate that ACDNet has obvious advantages over comparison deep learning algorithms at lower SNRs.  相似文献   

18.
水下目标多模态深度学习分类识别研究   总被引:2,自引:0,他引:2       下载免费PDF全文
曾赛  杜选民 《应用声学》2019,38(4):589-595
水下目标的分类识别对于水声探测具有重要意义。提出一种水下目标多模态深度学习分类识别方法。针对水声信号的一维时域模态和二维频域模态特征建立一种多模态特征融合的深度学习结构,结合长短时记忆网络和卷积神经网络的优点,对一维时域信号和二维频谱信号分别进行并行处理,对输出进行典型相关分析,形成特征融合表示,并利用相邻帧的相关性进行参数优化。利用实测水声信号对算法进行了验证。结果表明:提出的算法对于水下目标识别的精度有显著的提高。  相似文献   

19.
人脸识别问题的特点包括样本的特征维数高和每个类别所包含的样本较少。设计有效的特征提取方法是解决人脸识别问题的关键要素之一。提出了在采用降采样获得特征的同时利用新的降采样方法多次对原图片进行降采样,生成多幅训练样本,进而缓解人脸识别中的小样本问题。实验结果证明所提出的方法能有效地提高分类器的精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号