首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
秦月  陈楠  张勇 《科技信息》2009,(25):108-108,129
主要介绍一种基于定点数字信号处理器DSP芯片(TMS320VC5402)及51单片机构成的小词表语音识别实时控制系统。该系统体积小,成本低,可扩展性好。  相似文献   

2.
研究一种基于神经网络的端到端中文语音识别算法.算法将语音信息处理为频谱图,基于频谱图,设计和实现一种基于卷积神经网络和循环神经网络的深度学习模型结构用于中文语音识别.模型以汉字作为标签样本,运用训练算法和序列损失函数进行模型迭代训练最终模型;采用开源数据集,通过实验验证网络结构对识别效果的影响,同时对比传统的语音识别算...  相似文献   

3.
为解决使用语音信号准确识别动物以保护和研究野生动物的问题,提出一种全连接算法与稀疏连接算法相结合的全卷积神经网络(FCNN: Fully Convolutional Neural Network),用于语音的自动识别.利用全连接算法提取更多的组合特征,稀疏连接算法筛选重要特征可加快收敛速度.同时给出了具体的模型结构及算...  相似文献   

4.
提出了一种新颖的语音情感识别结构,从声音文件中提取梅尔频率倒谱系数(Melscale frequency cepstral coefficients,MFCCs)、线性预测倒谱系数(linear predictive cepstral coefficients,LPCCs)、色度图、梅尔尺度频谱图、Tonnetz表示和频谱对比度特征,并将其作为一维卷积神经网络(convolutional neural network,CNN)的输入.构建由一维卷积层、Dropout层、批标准化层、权重池化层、全连接层和激活层组成的网络,并使用Ryerson情感说话/歌唱视听(Ryerson audio-visual database of emotional speech and song,RAVDESS)数据集、柏林语音数据集(Berlin emotional database,EMO-DB)、交互式情绪二元运动捕捉(interactive emotional dyadic motion capture,IEMOCAP)数据集这3个数据集的样本来识别情感.为提高分类精度,利用增量方法修改初始模型.为...  相似文献   

5.
自动语音切分是语音识别、声纹识别、语音降噪等语音应用中非常重要的预处理环节,切分算法的优劣直接影响了系统输出结果的精度.在空管地空通话中,传输信道噪声、天气因素以及说话人工作状态均会对语音信号产生影响,进而在一定程度上影响语音切分性能.在分析空管地空通话语音特性基础上,提出了一种基于CGRU网络多输入特征的自动语音切分方法.该方法结合地空通话的特点,采用深度学习的方法进一步提取语音信号的时域和频域非线性特征,将语音信号帧分类为语音帧、结束帧以及其他帧三类.实验对比了多种语音特征作为输入对切分效果的影响,同时验证了GMM、CNN、CLDNN、CGRU等切分算法在真实地空通话测试集上的表现,并提出了一种简单预测结果平滑算法.实验结果表明,文中提出的自动切分方法在地空通话中具有明显优势,分类模型的AUC值达到了0.98.  相似文献   

6.
语音情感识别是人机交互的重要方向,可广泛应用于人机交互和呼叫中心等领域,有很大应用价值。近年来,深度神经网络在识别情感方面取得了巨大成功,但现有方法对高层语音特征提取会丢失大量原始信息并且识别准确率不高,本文提出了一种新的语音情感识别方法,由卷积神经网络从原始信号中提取特征,并在其堆叠一个2层长短时记忆神经网络,最终识别准确率达到91.74%,本文方法显著优于基于EMO-DB数据集等其他方法。  相似文献   

7.
8.
为了解决语音识别中由网络加深导致的低层特征消失、参数量大及网络训练困难的问题,基于Inception V3网络的非对称卷积思想,提出了一种改进的密集连接卷积神经网络(densely connected convolutional neural networks, DenseNet)模型。根据语音识别的长时相关性,通过密集连接块建立起不同层之间的连接关系,从而保存低层特征、加强特征传播;为了得到尺度更丰富的声学特征,将卷积核的范围进行扩大;利用非对称卷积思想分解卷积核,以减少参数量。实验结果表明,相较经典深度残差卷积神经网络模型和原始DenseNet模型,提出的模型在THCHS30数据集上的语音识别性能更好,在保证识别率的情况下,还减少了网络参数量,提高了模型训练效率。  相似文献   

9.
基于混沌神经网络的语音识别方法   总被引:4,自引:0,他引:4  
基于语音信号的时变特性,研究了神经网络语音识别的方法.把混沌特性引入到神经元,构造了一种新的多层混沌神经网络结构,同时推导了相应的学习算法.把这种混沌神经网络用于语音识别,并与常用的神经网络语音识别方法作了比较.实验结果表明,混沌神经网络方法的平均识别率要高于同等条件下常用神经网络方法的识别率.  相似文献   

10.
目前说话人、环境及发音多样性仍是语音识别声学建模中需解决的主要难题,为了克服这些不利因素的影响,本文将经过三层结构优化后的卷积神经网络应用于语音识别,利用卷积神经网络的卷积不变性克服语音信号的多样性,采用更符合生物神经元特性的新型激活函数改进卷积层缓解梯度消失的问题;利用中间池化方法改进池化层、减小特征提取误差,使用卷...  相似文献   

11.
基于卷积神经网络的连续语音识别   总被引:3,自引:0,他引:3  
在语音识别中,卷积神经网络( convolutional neural networks,CNNs)相比于目前广泛使用的深层神经网络( deep neural network,DNNs),能在保证性能的同时,大大压缩模型的尺寸。本文深入分析了卷积神经网络中卷积层和聚合层的不同结构对识别性能的影响情况,并与目前广泛使用的深层神经网络模型进行了对比。在标准语音识别库TIMIT以及大词表非特定人电话自然口语对话数据库上的实验结果证明,相比传统深层神经网络模型,卷积神经网络明显降低模型规模的同时,识别性能更好,且泛化能力更强。  相似文献   

12.
针对语音情感识别过程中特征不充分的问题,提出了约束式双通道模型,从全局和局部两方面充分挖掘特征所包含的情感信息,从而提高情感识别率.通道1是针对语音特征的全局信息,通过改进门控循环单元,构建了BAGRU(bidirectional attention gate recurrent unit)模型,提高了语音特征之间的相关性;通道2是针对语音特征的局部信息,卷积神经网络与对抗训练结合,避免了局部信息相互干扰.通过双通道融合模型,根据通道特征重要程度生成不同权重,同时引入正交约束,解决了融合时产生特征冗余的问题.研究结果表明,在IEMOCAP和EMO-DB情感语料库上分别达到了62.83%和82.19%的识别精度,表现出了良好性能.  相似文献   

13.
提出了一种基于双权值神经网络的非特定人连续语音识别的新算法.这种算法可以不经过端点检测和分割,构建连续语音中各不同音节的特征空间覆盖区,可以避免因分割错误而带来的错误识别.通过实验得到了较为满意的识别结果.  相似文献   

14.
蚁群优化(Ant Colony Optimization,ACO)算法是根据解决不同优化问题的多个蚂蚁算法所归纳出的解决复杂的组合优化问题的一个一般框架。本文首先研究ACO算法的原理及其结构框架,在此基础上,引入蚁群优化算法进行小波神经网络的训练,对ACO训练小波神经网络步骤和方法进行了研究。并与BP算法、遗传算法、模拟退火算法进行性能比较,将各种方法训练的小波神经网络用于噪声环境下的语音识别。仿真结果表明,基于ACO算法训练的神经网络在收敛速度上更具有优势,能够获得较小的均方误差值,对于非特定人噪声环境下的语音识别的正确率达到96%,是一种有效的语音识别方法。  相似文献   

15.
语音情感识别在人机交互中有重要的作用。在语音情感识别领域中,通常使用迁移学习解决语音情感数据难获取的问题,但忽略了语音数据的时序信息和空间信息。考虑到AlexNet网络中的参数来自图像数据集,不能完全表现语音数据的空间信息,并且不包含时序信息,因此提出通过膨胀卷积网络提取语音频谱图的空间信息,添加双向长短期记忆神经网络提取时序信息,并进行时空特征融合;针对语音中含有大量与情感无关的特征,通过将对数梅尔频谱图的三个通道作为输入,减少情感无关因素的影响,并添加注意力机制,选取情感权重大的时域信号。用公开数据集实验证明了方法的有效性,在WAR和UAR上都有提升。  相似文献   

16.
为了提高人工神经网络处理动态信号能力 ,在时延神经网络 ( TDNN )和卷积神经网络 ( CNN)的基础上 ,针对孤立音节的特点 ,提出了一个新的网络结构 ,研究了其学习算法。新网络在进一步改进后用于汉语孤立数码语音识别 ,对特定人和非特定人任务 ,分别达到了 97.7%和 95 .6%的正确识别率 (无拒识 ) ,其性能远远高于多层前向感知机( ML P)和时延神经网络 ,与传统的隐马尔科夫模型 ( HMM)方法是可以相比的。  相似文献   

17.
基于Speech SDK的语音应用程序实现   总被引:6,自引:0,他引:6  
利用Microsoft Speech SDK的API for Text-to-Speech和API for Speech Recognition,采用Visual Basic 6.0语言,建立文本语音转换应用程序和实现语音识别程序,简单地实现了语音识别的功能,识别出来的内容即可保存为文件,也可作为命令使用,让计算机执行某项操作。  相似文献   

18.
为了研究空中交通管理领域中的语音增强问题,并且节约存储资源,提出了一个新的语音增强方法.在基于全卷积神经网络(FCN)的基础上加入了跳跃连接(Skip Connection),并引入次要特征来进行联合学习.具体而言,使用语音的对数功率谱(LPS)作为网络的主要训练特征,引入对数梅尔倒谱系数(L-MFCC)作为网络的次要训练特征,来联合优化网络参数.实验证明,相较于单个LPS特征输入的架构,结合LPS和L-MFCC的多特征网络架构具有更好的语音增强性能表现,且作为次要特征的L-MFCC还可以用作其它用途.实验还证明,跳跃连接的加入可以很好的提高FCN的网络性能,且相较于基线的深度神经网络(DNN)模型,新的网络结构在相同参数数量的情况下,要具有更好的性能.  相似文献   

19.
汽车噪声中自动语音的识别技术   总被引:6,自引:0,他引:6  
汽车中的话音拨号系统是自动语音识别技术的应用热点.自动语音识别系统是一个基于训练的系统.在汽车噪声中,由于实际应用环境与形成系统参数的训练环境的失配,传统语音识别系统的性能会大幅度地下降,从而无法实用.为了提高语音识别系统在特定环境下的识别率及实用性,首先根据汽车环境中语音的失真模型分析了系统性能下降的原因,然后针对加性汽车噪声与信道失真对系统的影响,讨论了在汽车噪声中改善语音识别系统性能的方法.提出了在识别系统中用基于子带的语音增强算法和倒谱均值相减算法相结合的方法.对大量的多人连续数字串语音的识别实验表明,这一方法大大提高了系统在汽车噪声环境中的识别率,它还可以简便、实时的实现,具有一定的实用性.  相似文献   

20.
刘潇  和应民  陈力伟 《应用科技》2006,33(6):18-20,23
介绍一种适用于实时语音识别环境下的神经网络模型——动态识别神经网络(dynamic recognition neural network,DRNN).DRNN聚类学习的性能使得它非常适用于与在线学习方式相结合的实时语音识别系统.通过比较DRNN和隐含马尔科夫模型(hidden Markov model,HMM),可以看到不论是在训练方面还是在识别方面,DRNN算法的计算复杂程度都要低于HMM算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号