首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
张志浩  王坤侠 《应用声学》2022,41(5):843-850
语声情感识别对人机交互和情感计算研究领域具有重要作用,各类研究方法层出不穷。近期研究学者应用卷积神经网络和长短期记忆网络方法提取对数Mel谱图空间特征和时间特征,取得了一定的成果。然而不论是卷积神经网络还是长短期记忆网络提取特征时,都会产生特征冗余,导致语声情感识别效果下降。针对这一问题,该文提出了一种基于时空注意力机制的卷积-递归神经网络模型,采用对数Mel谱图和其一阶差分、二阶差分作为特征输入,在使用卷积神经网络提取空间特征和长短期记忆网络提取时间特征时,加入空间注意力和时间注意力机制,从而使上述网络能够更好地提取到对数Mel谱图中有效表征情感的空间特征和时间特征。该模型在Emo-DB和IEMOCAP语声数据集上的加权准确率分别达到86.8%、69.4%,未加权准确率分别达到84.7%、65.5%,优于当前大多数先进方法。  相似文献   

2.
赵乾坤  刘峰  梁秀兵  汪涛  宋永强 《应用声学》2023,42(5):1033-1041
水声目标被动识别是水声信号处理领域的研究热点之一。海洋环境中存在的不规则噪声干扰,使得基于传统方法的水声目标被动识别技术在实际的应用场景中效果不佳。本文采用一种基于时延网络(Time Delay Neural Network,TDNN)模型的舰船辐射噪声目标识别方法,该方法利用目标的短时平稳特性和长时关联特性对目标的声纹特征进行建模,使用梅尔谱图提取目标信号的初级特征,再通过融合注意力机制和时延神经网络的深度学习模型实现高级特性提取,最后再利用余弦相似度实现不同目标的类别划分。该方法在ShipsEar数据集和自行采集的数据进行测试验证,目标识别准确率分别达到79.2%和73.9%,可证明本文方法的有效性。  相似文献   

3.
为改善红外与可见光融合结果与源图像间的部分细节特征丢失问题,充分提取红外与可见光图像中的特征信息,提出了一种改进的双通道深度学习自编码网络进行红外与可见光图像融合。其中,双通道结构由密集连接和残差连接模块级联构成,并设置一种综合像素、结构相似度和梯度特征保留的损失函数,使该编码器结构可以充分提取红外与可见光图像的多层次特征,在融合层采用空间L1范数和注意力机制对级联双通道特征分别进行融合,最后设计对应的解码器对融合特征图像进行重构,获取最终的融合结果。通过与传统算法以及近年最新的深度学习算法进行实验对比,结果表明该方法在主观和客观上都具有优秀的综合性能。  相似文献   

4.
孙兴伟  李军锋  颜永红 《声学学报》2021,46(6):1234-1241
提出一种结合卷积神经网络的编解码器模型和混响时间注意力机制的混响抑制算法,该算法通过编解码器模型实现混响抑制,并利用混响时间注意力机制克服混响环境变化对混响抑制效果的影响。该算法在编码器中使用具有不同大小的卷积核来处理混响语音幅度谱,从而获得包含多尺度上下文信息的编码特征;通过引入注意力模块,实现在不同的混响时间环境中选择性地使用不同权重的编码特征生成加权特征;最后,在解码器中使用加权特征来重建混响抑制后的语音信号幅度谱。在模拟和真实的混响环境下,该算法相对于基线系统在语音混响调制能量比上分别取得了0.36 dB和0.66 dB的提升。实验结果表明,该算法可以适应不同混响环境的变化,相对基线系统在真实混响环境下具有更高的鲁棒性。   相似文献   

5.
俞一彪  王朔中 《声学学报》2005,30(6):536-541
提出了一种文本无关说话人识别的全特征矢量集模型及互信息评估方法,该模型通过对一组说话人语音数据在特征空间进行聚类而形成,全面地反映了说话人语音的个性特征。对于说话人语音的似然度计算与判决,则提出了一种互信息评估方法,该算法综合分析距离空间和信息空间的似然度,并运用最大互信息判决准则进行识别判决。实验分析了线性预测倒谱系数(LPCC)和Mel频率倒谱系数(MFCC)两种情况下应用全特征矢量集模型和互信息评估算法的说话人识别性能,并与高斯混合模型进行了比较。结果表明:全特征矢量集模型和互信息评估算法能够充分反映说话人语音特征,并能够有效评估说话人语音特征相似程度,具有很好的识别性能,是有效的。  相似文献   

6.
潘强  印鉴 《光学技术》2018,(2):164-170
针对当前动作识别技术中正确识别率不高,易受到环境变化的影响等问题,提出了一种基于受限玻尔兹曼机与密集采样特征迭代加权融合的动作识别算法。避免单个特征对图像序列的表达力不强,引入了受限玻尔兹曼机(RBM)特征与密集采样(DT)特征分别对行为动作进行特征提取,得到RBM特征和DT特征;定义一种迭代加权函数,将RBM特征与DT特征进行加权融合,形成描述能力更强的RBM-DT特征;基于K-近邻(KNN)算法,对RBM-DT特征进行分类学习,完成动作识别的决策判断。通过在KTH、Hollywood数据集上实验表明:与当前动作识别技术比较,提出的新算法能够有效识别各种行为动作,对各类型动作均具有更高的正确识别率与鲁棒性。  相似文献   

7.
林曦  郭阳  赵永强  姚乃夫 《光学学报》2023,(21):225-236
通过发掘深度信息与子孔径图像邻域像素间的高度相关性,提出了一种基于邻域像素注意力机制的光场深度估计方法。首先根据光场图像的数据特性提出了一种邻域像素注意力机制,该注意力机制考虑了不同子孔径图像在同一邻域间的极几何关系,能够增强网络对遮挡像素的感知能力。其次基于注意力机制设计了一个光场子孔径图像序列特征提取模块,该模块通过三维卷积将相邻序列图像上的特征编码到特征图上,并通过注意力机制增强网络对光场图像极几何特征的学习能力。最后联合邻域像素注意力机制和特征提取模块设计了一个多分支的全卷积神经网络,该网络使用部分光场子孔径图像序列即可估计图像的深度特征。实验结果表明,所提方法在均方误差(MSE)和平均坏像素率(BP)指标上总体表现优于其他先进方法,同时得益于高效注意力机制的加入,与其他先进方法相比所提方法运行速度最快。  相似文献   

8.
杨军  王顺  周鹏 《光学学报》2019,39(4):306-316
提出一种基于深度体素卷积神经网络的三维(3D)模型识别分类算法,该算法使用体素化技术将3D多边形网格模型转化为体素矩阵,并通过深度体素卷积神经网络提取该矩阵的深层特征,以增强特征的表达能力和差异性。在ModelNet40数据集上的实验结果表明:所提算法对3D网格模型识别分类的准确率能够达到87%左右。所构建的深度体素卷积神经网络能够有效地增强3D模型的特征提取和表达能力,提高对大规模复杂3D网格模型分类识别的准确率,所提方法优于当前的主流方法。  相似文献   

9.
针对相对平行直线扫描CT(PTCT)图像重建存在的有限角伪影问题,提出一种学习局部和非局部正则项的深度迭代展开方法。该方法将具有固定迭代次数的梯度下降算法迭代展开到神经网络,利用具有坐标注意力(CA)机制的卷积模块和Swin-Transformer模块作为迭代模块交替级联部署,构成端到端的深度重建网络。卷积模块学习局部正则化,其中CA用于减少图像过平滑;Swin-Transformer模块学习非局部正则化,提高网络对图像细节的恢复能力;在相邻模块间,使用迭代连接(IC)增强模型提取深层特征的能力,提高每次迭代的效率。通过消融实验验证了网络各部分的有效性,并在两种类型的数据集上进行实验,结果证明了本文方法的效果。实验结果表明,本文方法在抑制PTCT重建图像有限角伪影的同时,能较好地保留重建图像细节,提高重建图像质量。  相似文献   

10.
为探究中红外光谱快速检测核桃产地和品质的可行性,基于中红外光谱分析技术,并将化学计量学的算法应用于中红外光谱判别分析之中,对中国四大核桃主产区的10类主要核桃品种进行检测,取得较好效果。通过提取核桃粉末的光谱透射率,去除原始光谱首尾部分的明显噪声,对保留的700~3 450 cm-1范围的光谱采用小波分析(wavelet transform,WT)算法进行去噪预处理,并采用无信息变量消除结合连续投影算法(UVE-SPA)提取光谱特征波数,采用主成分分析法(PCA)对光谱定性分析,基于反向传播神经网络(BPNN)、极限学习机(ELM)、随机森林(RF)、径向基函数神经网络(RBFNN)及偏最小二乘判别分析(PLS-DA)对全谱和特征波数建模对比。在4类不同产地核桃判别中,得到12个特征波数:803,1 355,1 418,1 541,1 580,1 727,1 747,1 868,2 338,2 462,2 824和3 166 cm-1,基于特征波数分类的正确率高于全谱的分类结果,BPNN算法结合特征波数建模得到的识别正确率高达97%,RF算法分类判别效果最差,正确率仅69.70%;在10类不同品种判别中,得到10个特征波数:903,1 275,1 507,1 541,1 563,1 671,1 868,2 311,2 845和3 437 cm-1,基于特征波数分类的正确率依然高于全谱的分类结果,BPNN算法结合特征波数建模得到的识别正确率高达83.3%。在特征波数通用性方面,两组特征波数范围中有2个特征波数相同:1 541和1 868 cm-1,其他大多特征波数也都相近,将10类品种特征波数作为输入变量对4类不同产地的核桃进行分类,分类结果较差,因此,在10类品种监督值下选取的特征波数无法适用于4类产地的判别问题,由此推断,即使是同一原始数据,基于不同判别问题得到的特征波数在建模时通用性较差。结果表明,经UVE-SPA算法提取特征波数后,变量数可减少99%以上,有效地简化了模型,减少计算量,提高预测的稳定性;总体上,每个分类器的表现为:BPNN>RBFNN>ELM>PLS-DA>RF;基于小波变换结合特征波数选取和反向传播神经网络算法能有效地实现核桃的产地和品种识别。  相似文献   

11.
PurposeAlzheimer's disease (AD) is a progressive and irreversible neurodegenerative disease. In recent years, machine learning methods have been widely used on analysis of neuroimage for quantitative evaluation and computer-aided diagnosis of AD or prediction on the conversion from mild cognitive impairment (MCI) to AD. In this study, we aimed to develop a new deep learning method to detect or predict AD in an efficient way.Materials and methodsWe proposed a densely connected convolution neural network with connection-wise attention mechanism to learn the multi-level features of brain MR images for AD classification. We used the densely connected neural network to extract multi-scale features from pre-processed images, and connection-wise attention mechanism was applied to combine connections among features from different layers to hierarchically transform the MR images into more compact high-level features. Furthermore, we extended the convolution operation to 3D to capture the spatial information of MRI. The features extracted from each 3D convolution layer were integrated with features from all preceding layers with different attention, and were finally used for classification. Our method was evaluated on the baseline MRI of 968 subjects from ADNI database to discriminate (1) AD versus healthy subjects, (2) MCI converters versus healthy subjects, and (3) MCI converters versus non-converters.ResultsThe proposed method achieved 97.35% accuracy for distinguishing AD patients from healthy control, 87.82% for MCI converters against healthy control, and 78.79% for MCI converters against non-converters. Compared with some neural networks and methods reported in recent studies, the classification performance of our proposed algorithm was among the top ranks and improved in discriminating MCI subjects who were in high risks of conversion to AD.ConclusionsDeep learning techniques provide a powerful tool to explore minute but intricate characteristics in MR images which may facilitate early diagnosis and prediction of AD.  相似文献   

12.
朱应俊  周文君  朱川  马建敏 《应用声学》2023,42(5):1090-1098
为了使机器能够更好地理解人的情感并改善人机交互体验,可对语声特征及分类网络进行融合以提升情感识别性能。本文从网络融合的角度,把基于梅尔倒谱系数和逆梅尔倒谱系数的二维卷积神经网络和基于散射卷积网络系数的长短期记忆网络作为前端网络,提取前端网络的中间层作为话语级的特征表示,利用压缩-激励(SE)通道注意力机制对前端网络的中间层的权重进行调整并融合,然后由深度神经网络后端分类器输出情感分类结果。在汉语情感数据集中进行五折交叉验证的对比实验,实验结果表明,基于SE通道注意力机制的网络融合方式可以有效地利用不同前端网络在语声情感识别任务中的优势,提高语声情感识别的准确率。  相似文献   

13.
为提高光电系统对弱小目标的识别和分类能力,降低算法对硬件平台和数据的依赖,提出一种无监督分类方法−基于目标深度特征聚类的细粒度分类方法。该方法通过轮廓、颜色、对比度等浅层特征提取提示目标,经超分辨处理后,利用卷积神经网络对目标的深层特征进行编码,进一步采用基于注意机制的主成分分析方法进行降维生成表征矩阵,最后利用聚类的方式实现目标细粒度分类。实验验证了基于不同神经网络的深度聚类方法在不同数据集上的分类性能,其中采用ResNet-34聚类方法在CIFAR-10测试集上细粒度分类性能达92.71%,结果表明,基于深度聚类的目标细粒度方法能够取得与强监督学习方法相当的目标分类效果。此外,还可以根据不同簇数和聚类等级的选择实现不同细粒度的分类效果。  相似文献   

14.
为提高混沌时间序列的预测精度,提出一种基于混合神经网络和注意力机制的预测模型(Att-CNNLSTM),首先对混沌时间序列进行相空间重构和数据归一化,然后利用卷积神经网络(CNN)对时间序列的重构相空间进行空间特征提取,再将CNN提取的特征和原时间序列组合,用长短期记忆网络(LSTM)根据空间特征提取时间特征,最后通过注意力机制捕获时间序列的关键时空特征,给出最终预测结果.将该模型对Logistic,Lorenz和太阳黑子混沌时间序列进行预测实验,并与未引入注意力机制的CNN-LSTM模型、单一的CNN和LSTM网络模型、以及传统的机器学习算法最小二乘支持向量机(LSSVM)的预测性能进行比较.实验结果显示本文提出的预测模型预测误差低于其他模型,预测精度更高.  相似文献   

15.
围绕水声分布式纯方位定位问题,针对传统方法的远距离定位精度低、定位结果易受初值影响等缺点,提出了一种测向误差特征辅助两步式全连接层神经网络(DFE-TS-FCNN)的纯方位定位方法。使用神经网络进行定位,提高远距离定位精度并消除初值影响,输入特征是目标方位角测量值和测向误差标准差估计值。使用两步式网络结构抑制网络过拟合,分类网络确定目标区域后,再用对应的定位网络估计目标位置。蒙特卡洛仿真实验中,所提方法在近距离达到了与迭代加权最小二乘算法和迭代总体最小二乘算法相近的定位精度,在远距离定位精度大幅提高、约束均方根误差(RMSE)小于2.5 km的条件下,最远可定向距离相比传统方法从12.6 km提升至22.7 km。在实际数据中,该方法也获得了较好的定位结果。  相似文献   

16.
Monitoring the thermal condition of electrical equipment is necessary for maintaining the reliability of electrical system. The degradation of electrical equipment can cause excessive overheating, which can lead to the eventual failure of the equipment. Additionally, failure of equipment requires a lot of maintenance cost, manpower and can also be catastrophic- causing injuries or even deaths. Therefore, the recognition processof equipment conditions as normal and defective is an essential step towards maintaining reliability and stability of the system. The study introduces infrared thermography based condition monitoring of electrical equipment. Manual analysis of thermal image for detecting defects and classifying the status of equipment take a lot of time, efforts and can also lead to incorrect diagnosis results. An intelligent system that can separate the equipment automatically could help to overcome these problems. This paper discusses an intelligent classification system for the conditions of equipment using neural networks. Three sets of features namely first order histogram based statistical, grey level co-occurrence matrix and component based intensity features are extracted by image analysis, which are used as input data for the neural networks. The multilayered perceptron networks are trained using four different training algorithms namely Resilient back propagation, Bayesian Regulazation, Levenberg–Marquardt and Scale conjugate gradient. The experimental results show that the component based intensity features perform better compared to other two sets of features. Finally, after selecting the best features, multilayered perceptron network trained using Levenberg–Marquardt algorithm achieved the best results to classify the conditions of electrical equipment.  相似文献   

17.
In order to further improve the performance of speaker recognition, features fusion and models fusion are proposed. The features fusion method is to fuse deep and shallow features. The fused feature describes speaker characteristics more comprehensively than a single feature because of the complementarity between different levels of features. The models fusion method is to fuse i-vectors extracted from different speaker recognition systems. The fused model can combine advantages of different speaker recognition systems. Experimental results show the effectiveness of the proposed methods. Compared with the state-of-the-art system on CASIA North and South dialect corpus,the proposed features fusion system and models fusion system achieved about 54.8% and 69.5% relative improvement on the equal error rate(EER),respectively.  相似文献   

18.
Diabetic retinopathy (DR) is a common complication of diabetes mellitus (DM), and it is necessary to diagnose DR in the early stages of treatment. With the rapid development of convolutional neural networks in the field of image processing, deep learning methods have achieved great success in the field of medical image processing. Various medical lesion detection systems have been proposed to detect fundus lesions. At present, in the image classification process of diabetic retinopathy, the fine-grained properties of the diseased image are ignored and most of the retinopathy image data sets have serious uneven distribution problems, which limits the ability of the network to predict the classification of lesions to a large extent. We propose a new non-homologous bilinear pooling convolutional neural network model and combine it with the attention mechanism to further improve the network’s ability to extract specific features of the image. The experimental results show that, compared with the most popular fundus image classification models, the network model we proposed can greatly improve the prediction accuracy of the network while maintaining computational efficiency.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号