首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
褚钰  李田港  叶硕  叶光明 《应用声学》2020,39(2):223-230
为了解决传统卷积神经网络在识别中文语音时预测错误率较高、泛化性能弱的问题,首先以深度卷积神经网络(DCNN)-连接时序分类(CTC)为研究对象,深入分析了不同卷积层、池化层以及全连接层的组合对其性能的影响;其次,在上述模型的基础上,提出了多路卷积神经网络(MCNN)-连接时序分类(CTC),并联合SENet提出了深度SE-MCNN-CTC声学模型,该模型融合了MCNN与SENet的优势,既能加强卷积神经网络的深层信息的传递、避免梯度问题,又可以对提取的特征图进行自适应重标定。最终实验结果表明:SE-MCNN-CTC相较于DCNN-CTC错误率相对降低13.51%,模型最终的错误率达22.21%;算法改进后的声学模型可以有效地提升泛化性能。  相似文献   

2.
郭洋  周翊  管鲁阳  鲍明 《应用声学》2019,38(1):8-15
针对直升机探测中目标运动过程连续识别的鲁棒性问题,提出了一种基于复合深度神经网络的直升机声学特征提取和识别框架。复合深度神经网络由卷积神经网络和长短时记忆神经网络以并行结构组合,进行直升机声学特征的优化,完成直升机类型识别。针对直升机声信号特性,对卷积神经网络进行了改进,使得该复合深度神经网络在信号短时谱基础上优化声信号特征表征并提取前后帧之间的相关信息,弥补通常声目标识别方法不能充分利用目标信号时间历程信息的缺陷。真实外场实验数据测试结果显示:相较于传统识别方法,该算法显著提升了直升机进入有效探测范围后连续识别的鲁棒性和目标识别正确率。  相似文献   

3.
人脸的情感识别在人机交互领域有着重要作用,对人脸表情进行分类也是研究图像情感的一种方法。针对目前公开的人脸表情数据集数据量少,卷积神经网络的结构较复杂、参数多且计算量大、易出现过拟合的现象,需要构建一种针对小数据集的人脸表情分类模型。利用MTCNN模型进行人脸检测后,结合Inception的思想提出一种新的卷积神经网络模型,使用1×1卷积核对特征维数进行缩减,增加并平衡网络深度和宽度的同时不增加额外的计算负担,更精准的对人脸特征进行提取。经实验验证,提出的算法在CK+和JAFFE人脸数据集上,较其他方法有更好的效果,构建的人脸表情分类卷积神经网络模型能有效进行人脸表情的分类。  相似文献   

4.
吕钊  吴小培  张超  李密 《声学学报》2010,35(4):465-470
提出了一种基于独立分量分析(ICA)的语音信号鲁棒特征提取算法,用以解决在卷积噪声环境下语音信号的训练与识别特征不匹配的问题。该算法通过短时傅里叶变换将带噪语音信号从时域转换到频域后,采用复值ICA方法从带噪语音的短时谱中分离出语音信号的短时谱,然后根据所得到的语音信号短时谱计算美尔倒谱系数(MFCC)及其一阶差分作为特征参数。在仿真与真实环境下汉语数字语音识别实验中,所提算法相比较传统的MFCC其识别正确率分别提升了34.8%和32.6%。实验结果表明基于ICA方法的语音特征在卷积噪声环境下具有良好的鲁棒性。   相似文献   

5.
曾宇  户文成 《应用声学》2020,39(3):409-416
针对公共场所异常声的感知和识别问题,提出一种基于贝叶斯优化卷积神经网络的识别方法。提取声信号的Gammatone倒谱系数、倍频程功率谱、短时能量和谱质心,组合成声信号的特征图。构建卷积神经网络作为分类器,利用递增的卷积核设置和池化操作处理不同尺度的特征。基于贝叶斯优化算法优化卷积神经网络的模型参数,对包括火苗噼啪声、婴儿啼哭声、烟花燃放声、玻璃破碎声和警报声的5种公共场所异常声进行识别。该方法的识别结果与基于不同的特征提取和分类器方案得到的识别结果进行比较,结果表明该方法的识别效果优于其他特征提取和分类器方案的识别效果。最后分析了该方法在不同信噪比噪声干扰下的识别结果,验证了该方法的有效性。  相似文献   

6.
一种改进的基于层次聚类的说话人自动聚类算法   总被引:1,自引:0,他引:1  
王炜  吕萍  颜永红 《声学学报》2008,33(1):9-14
说话人聚类是语音识别以及音频检索等众多语音应用的重要组成部分.提出一种改进的基于层次聚类的说话人聚类算法,对层次聚类法做出了进一步改进:(1)改进误差平方和准则以提高聚类速度;(2)引入假设检验方法确定类别数目;(3)提出一种稳健的在线聚类方法以解决对新到来的语音段进行聚类的问题.在聚类实验中,算法的平均类纯度和说话人纯度分别为96.7%和96.6%.实验结果还表明,相比手工标注说话人信息,将该算法的聚类结果应用于说话人自适应可降低系统的误识率.  相似文献   

7.
混合双语语音识别的研究   总被引:1,自引:0,他引:1  
随着现代社会信息的全球化,双语以及多语混合的语言现象日趋普遍,随之而产生的双语或多语语音识别也成为语音识别研究领域的热门课题。在双语混合语音识别中,主要面临的问题有两个:一是在保证双语识别率的前提下控制系统的复杂度;二是有效处理插入语中原用语引起的非母语口音现象。为了解决双语混合现象以及减少统计建模所需的数据量,通过音素混合聚类方法建立起一个统一的双语识别系统。在聚类算法中,提出了一种新型基于混淆矩阵的两遍音素聚类算法,并将该方法与传统的基于声学似然度准则的聚类方法进行比较;针对双语语音中非母语语音识别性能较低的问题,提出一种新型的双语模型修正算法用于提高非母语语音的识别性能。实验结果表明,通过上述方法建立起来的中英双语语音识别系统在有效控制模型规模的同时,实现了同时对两种语言的识别,且在单语言语音和混合语言语音上的识别性能也能得到有效保证。   相似文献   

8.
吴国鑫  詹花茂  李敏 《应用声学》2021,40(4):602-610
变压器中的一些放电和机械故障会产生异常声音,可用于故障检测。据此,本文提出基于可听声的变压器放电和机械故障诊断方法。针对机械故障声音与变压器本体噪声特征相似易混淆的问题提出改进小波包-BP神经网络算法,与传统小波包-BP神经网络算法相比声音的识别率提高了5.7%。为提高声音识别系统的泛化性,提出基于梅尔对数频谱和卷积神经网络的声音识别算法。两种算法相互验证,提高了系统的可靠性。在真实变压器油箱中模拟了不同类型放电和机械故障。试验结果表明,本文提出的两种方法能成功识别放电和机械故障的声音,声音识别率分别为99.6%和97.57%。  相似文献   

9.
针对现有的基于卷积神经网络的图像超分辨率算法参数较多、计算量较大、训练时间较长、图像纹理模糊等问题,结合现有的图像分类网络模型和视觉识别算法对其提出了改进。在原有的三层卷积神经网络中,调整卷积核大小,减少参数;加入池化层,降低维度,减少计算复杂度;提高学习率和输入子块的尺寸,减少训练消耗的时间;扩大图像训练库,使训练库提供的特征更加广泛和全面。实验结果表明,改进算法生成的网络模型取得了更佳的超分辨率结果,主观视觉效果和客观评价指标明显改善,图像清晰度和边缘锐度明显提高。  相似文献   

10.
《光学技术》2021,47(1):56-61
为提高传统跌倒检测系统的识别准确率,降低识别时间,提出了一种新型跌倒检测模型。以Kinect V2深度视觉传感器获取的骨骼节点为样本数据源,由改进型K-means算法计算聚类中心点,并在此基础上提取跌倒检测特征数据。将特征数据重构成5×5训练样本数据后,输入所设计的卷积神经网络模型进行训练学习,得到优化的跌倒检测模型参数。实验表明,所设计的新型检测模型相对于传统检测跌倒算法具有更高的识别准确率和更快的运算速度,保证了系统的实时性和鲁棒性要求。  相似文献   

11.
针对卷积神经网络在步态识别时准确率易饱和现象,以及Vision Transformer(ViT)对步态数据集拟合效率较低的问题,提出构建一个对称双重注意力机制模型,保留行走姿态的时间顺序,用若干独立特征子空间有针对性地拟合步态图像块;同时,采用对称架构的方式,增强注意力模块在拟合步态特征时的作用,并利用异类迁移学习进一步提升特征拟合效率。将该模型运用在中科院CASIA C红外人体步态库中进行多次仿真实验,平均识别准确率达到96.8%。结果表明,本文模型在稳定性、数据拟合速度以及识别准确率3方面皆优于传统ViT模型和CNN对比模型。  相似文献   

12.
近红外光谱分析技术在土壤含水率预测方面具有独特的优势,是一种便捷且有效的方法。卷积神经网络作为高性能的深度学习模型,能够从复杂光谱数据中自主提取有效特征结构进行学习,与传统的浅层学习模型相比具有更强的模型表达能力。将卷积神经网络用于近红外光谱预测土壤含水率,并提出了有效的卷积神经网络光谱回归建模方法,简化了光谱数据的预处理要求,且具有更高的光谱预测精度。首先对不同含水率下土壤样品的光谱反射率数据进行简单的预处理,通过主成分分析减少光谱数据量,并将处理后的光谱数据变换为二维光谱信息矩阵,以适应卷积神经网络特殊的学习结构。然后基于卷积神经网络算法,设置双层卷积和池化结构逐层提取光谱数据的内部特征信息,并采用局部连接和权值共享减少网络参数、提高泛化性能。通过试验优化网络结构和各项参数,最终获得针对土壤光谱数据的卷积神经网络土壤含水率预测模型,并与传统的BP,PLSR和LSSVM模型进行对比实验。结果表明在训练样本达到一定数量时,卷积神经网络的预测精度和回归拟合度均高于三种传统模型。在少量训练样本参与建模的情况下,模型预测表现高于BP神经网络,但略低于PLSR和LSSVM模型。随着参与训练样本量的增加,卷积神经网络的预测精度和回归拟合度也随之稳定提升,达到并显著优于传统模型水平。因此,卷积神经网络能够利用近红外光谱数据对土壤含水率做出有效预测,且在较多样本参与建模时取得更好效果。  相似文献   

13.
胚蛋雌雄识别一直是家禽业发展的瓶颈问题,在禽肉生产过程中倾向于养殖雄性个体,而禽蛋生产产业倾向于养殖雌性家禽。若能在孵化过程中较早鉴别出种蛋的雌雄,不仅能够降低家禽孵化产业的成本,还能够提高禽蛋和禽肉生产行业的经济效益。该文以种鸭蛋为研究对象,为了在种鸭蛋孵化早期实现对种蛋的雌雄识别,构建了可见/近红外透射光谱信息采集系统,在200~1 100 nm的波长范围内采集了345枚孵化了0~8 d的种鸭蛋光谱数据。搭建了适用于种鸭蛋光谱信息的6层卷积神经网络(convolutional neural network, CNN),其中包括输入层、3个卷积层、全连接层与输出分类层。卷积层可以提取光谱中的有效信息,全连接层通过对卷积层提取的局部特征进行整合供输出层分类决策。另外在卷积神经网络中引入局部响应归一化和dropout操作能够加快网络的收敛速度。利用该卷积神经网络构建鸭胚雌雄信息识别网络,通过对比与分析不同孵化天数的识别效果,发现孵化7d的识别效果最佳。随后将孵化7 d的种鸭蛋原始光谱数据进行噪声去除,选取500~900 nm波段用于后续的特征波长选取和建模。分别运用了竞争性自适应重加权算法(CARS)、连续投影算法( SPA)与遗传算法(GA)选择能够区分鸭胚性别的波长点,将选取的特征波长转换为二维的光谱信息矩阵,二维光谱信息矩阵保留了一维光谱的有效信息,同时极大地方便了与卷积神经网络的结合。利用二维光谱信息矩阵和卷积神经网络相结合,实现孵化早期阶段鸭胚的雌雄识别。经检验,基于 SPA算法和CNN网络建立的模型效果较佳,其中训练集、开发集及测试集的准确率分别为93.36%,93.12%和93.83%;基于GA算法和CNN网络建立的模型效果次之,训练集、开发集及测试集的准确率分别为90.87%,93.12%和86.42%;基于CARS算法和CNN网络建立的模型的训练集、开发集及测试集的准确率分别为84.65%,83.75%和77.78%。研究结果表明基于可见/近红外光谱技术和卷积神经网络可以实现孵化早期鸭胚胎雌雄的无损鉴别,为后续相关自动化检测装置的研发提供了技术支撑。  相似文献   

14.
Distinguishing the types of partial discharge (PD) caused by different insulation defects in gas-insulated switchgear (GIS) is a great challenge in the power industry, and improving the recognition accuracy of the relevant models is one of the key problems. In this paper, a convolutional neural network and long short-term memory (CNN-LSTM) model is proposed, which can effectively extract and utilize the spatiotemporal characteristics of PD input signals. First, the spatial characteristics of higher-level PD signals can be obtained through the CNN network, but because CNN is a deep feedforward neural network, it does not have the ability to process time-series data. The PD voltage signal is related to the time dimension, so LSTM saves and analyzes the previous voltage signal information, realizes the modeling of the time dependence of the data, and improves the accuracy of the PD signal pattern recognition. Finally, the pattern recognition results based on CNN-LSTM are given and compared with those based on other traditional analysis methods. The results show that the pattern recognition rate of this method is the highest, with an average of 97.9%, and its overall accuracy is better than that of other traditional analysis methods. The CNN-LSTM model provides a reliable reference for GIS PD diagnosis.  相似文献   

15.
许多太赫兹光谱物质识别方法依靠寻找该物质在太赫兹波段范围内不同光谱表现出的不同特征来识别特定物质。吸收峰提取法是常用的光谱特征提取算法,但当光谱无明显特征吸收峰或峰位、峰值相近或难以识别时,难以利用吸收峰特征辨别物质。将机器学习和统计学习技术用于太赫兹光谱的识别中虽减少了吸收峰的干扰,但常常需要人为定义特征而导致分类误差。深度学习法能自动提取特征,但在识别前往往需要进行复杂的预处理操作,并且在特征提取的过程中容易丢失部分特征从而导致分类误差。针对以上问题,提出了一种基于小波系数图和卷积神经网络的太赫兹光谱识别方法。利用太赫兹光谱信号进行小波变换时,由于小波系数矩阵的每一行系数与原始光谱信号存在着对应关系,因此将太赫兹光谱的吸收系数通过小波变换在频率域上展开,能得到不同的二维的频率-尺度分布图,又称小波系数图。然后构造一个卷积神经网络(CNN)对小波系数图进行分类,可得到太赫兹光谱物质的分类结果。为了验证所提出算法的有效性,将三组小波系数图数据与原始光谱数据分别输入CNN、Support Vector Machin (SVM)、Multilayer Perceptron (MLP)三种不同的分类器作对比,从实验结果可以发现本文算法在三组数据中的识别率均达到了100%,说明相比于传统方法,本文方法能准确分类没有明显特征吸收峰的光谱,证明了使用卷积神经网络识别小波系数图的有效性。为了体现本文算法的优势,与小波脊线寻峰识别算法作对比,实验结果表明本文算法几乎不受峰频、峰位、峰值的影响,无论是识别不存在吸收峰的淀粉,还是识别相似度高的蔗糖和葡萄糖,都具有较高的识别率,分类准确率达97.62%,证明了所提算法的优越性。该算法为太赫兹光谱数据识别提供了一种新思路,同时也可以推广运用到其他谱图物质的识别中。  相似文献   

16.
韩鹏程  燕群  彭涛  宁方立 《应用声学》2022,41(4):602-609
为了克服现有气体泄漏检测方法的不足,提出一种基于卷积神经网络的气体泄漏超声信号识别方法。在设计卷积神经网络网络结构时,通过多次预训练确定网络层数、卷积核数目和尺寸、全连接层神经元数目。同时,选择Inception模块平衡网络宽度和深度,防止过拟合的同时提高网络对尺度的适应性。通过输气管道泄漏实验平台模拟工况中常见的阀门泄漏和垫片泄漏,利用短时傅里叶变换进行时频图表征,在此基础上,建立二分类模型和不同泄漏类型的三分类模型。结果表明,相比二分类模型,不同泄漏类型的三分类模型识别准确率有所降低,添加Inception模块可以有效提高三分类模型的性能。  相似文献   

17.
This paper proposes a data-driven method-based fault diagnosis method using the deep convolutional neural network (DCNN). The DCNN is used to deal with sensor and actuator faults of robot joints, such as gain error, offset error, and malfunction for both sensors and actuators, and different fault types are diagnosed using the trained neural network. In order to achieve the above goal, the fused data of sensors and actuators are used, where both types of fault are described in one formulation. Then, the deep convolutional neural network is applied to learn characteristic features from the merged data to try to find discriminative information for each kind of fault. After that, the fully connected layer does prediction work based on learned features. In order to verify the effectiveness of the proposed deep convolutional neural network model, different fault diagnosis methods including support vector machine (SVM), artificial neural network (ANN), conventional neural network (CNN) using the LeNet-5 method, and long-term memory network (LTMN) are investigated and compared with DCNN method. The results show that the DCNN fault diagnosis method can realize high fault recognition accuracy while needing less model training time.  相似文献   

18.
张志浩  王坤侠 《应用声学》2022,41(5):843-850
语声情感识别对人机交互和情感计算研究领域具有重要作用,各类研究方法层出不穷。近期研究学者应用卷积神经网络和长短期记忆网络方法提取对数Mel谱图空间特征和时间特征,取得了一定的成果。然而不论是卷积神经网络还是长短期记忆网络提取特征时,都会产生特征冗余,导致语声情感识别效果下降。针对这一问题,该文提出了一种基于时空注意力机制的卷积-递归神经网络模型,采用对数Mel谱图和其一阶差分、二阶差分作为特征输入,在使用卷积神经网络提取空间特征和长短期记忆网络提取时间特征时,加入空间注意力和时间注意力机制,从而使上述网络能够更好地提取到对数Mel谱图中有效表征情感的空间特征和时间特征。该模型在Emo-DB和IEMOCAP语声数据集上的加权准确率分别达到86.8%、69.4%,未加权准确率分别达到84.7%、65.5%,优于当前大多数先进方法。  相似文献   

19.
In view of the low accuracy of the current bridge disease detection algorithm based on convolutional neural network, an improved YOLOX algorithm was proposed to improve the detection accuracy. By using the feature information of the shallow layer of the backbone network, the feature extraction enhancement network was improved, and the feature information of the same layer was added for fusion. An improved coordinate attention mechanism was introduced to combine the position information and the channel information to enhance the network recognition of bridge diseases. At the same time, the localization loss function was improved. The experimental results show that the accuracy of the improved YOLOX network structure for bridge disease detection reaches 92.11%, which is 4.40% higher than the original network. © 2023 Editorial office of Journal of Applied Optics. All rights reserved.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号