首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
当前基于深度神经网络模型中,虽然其隐含层可设置多层,对复杂问题适应能力强,但每层之间的节点连接是相互独立的,这种结构特性导致了在语音序列中无法利用上下文相关信息来提高识别效果,而传统的循环神经网络虽然做出了改进,但是只能对上文信息进行利用。针对以上问题,该文采用可以同时利用语音序列中上下文相关信息的双向循环神经网络模型与深度神经网络模型相结合,并应用于语音识别。构建具有5层隐含层的模型,其中第3层为双向循环神经网络结构,其他层采用深度神经网络结构。实验结果表明:加入了双向循环神经网络结构的模型与其他模型相比,较好地提高了识别正确率;噪声对双向循环神经网络汉语识别有重要影响,尤其是训练集和测试集附加噪声类型不同时,单一的含噪声语音的训练模型无法适应不同噪声类型的语音识别;调整神经网络模型中隐含层神经元数量后,识别正确率并不是一直随着隐含层中神经元数量的增加而增加,神经元数量数目增加到一定程度后正确率出现了降低的趋势。  相似文献   

2.
褚钰  李田港  叶硕  叶光明 《应用声学》2020,39(2):223-230
为了解决传统卷积神经网络在识别中文语音时预测错误率较高、泛化性能弱的问题,首先以深度卷积神经网络(DCNN)-连接时序分类(CTC)为研究对象,深入分析了不同卷积层、池化层以及全连接层的组合对其性能的影响;其次,在上述模型的基础上,提出了多路卷积神经网络(MCNN)-连接时序分类(CTC),并联合SENet提出了深度SE-MCNN-CTC声学模型,该模型融合了MCNN与SENet的优势,既能加强卷积神经网络的深层信息的传递、避免梯度问题,又可以对提取的特征图进行自适应重标定。最终实验结果表明:SE-MCNN-CTC相较于DCNN-CTC错误率相对降低13.51%,模型最终的错误率达22.21%;算法改进后的声学模型可以有效地提升泛化性能。  相似文献   

3.
4.
连接时序分类准则声学建模方法优化   总被引:2,自引:1,他引:1       下载免费PDF全文
对基于连接时序分类准则(connectionist temporal classification,CTC)的端到端声学建模方法进行研究和优化。研究分析了不同声学特征、建模单元以及神经网络结构对CTC声学模型性能的影响,针对CTC模型中blank符号共享导致的建模缺陷提出了建模单元相关的非共享blank方法进行改进,并引入融合建模单元关联信息的模型初始化方法进一步提高CTC模型的性能。在300小时标准英文数据集Switchboard的实验结果显示,结合非共享blank、时延神经网络以及融合建模单元关联信息的初始化方法,CTC声学模型相对于基线系统在词错误率上取得绝对1.1%的下降,同时在训练速度上取得3.3倍的提高,实验结果证明本文针对端到端声学建模提出的优化方法是有效的。  相似文献   

5.
基于听觉模型的耳语音的声韵切分   总被引:5,自引:0,他引:5       下载免费PDF全文
丁慧  栗学丽  徐柏龄 《应用声学》2004,23(2):20-25,44
本文分析了耳语音的特点,并根据生理声学及心理声学的基本理论与实验资料,提出了一种利用听觉模型来进行耳语音声韵切分的方法。这种适用于耳语音声韵切分的听觉感知模型主要分为四个层次:耳蜗对声音频率的分解机理;听觉系统的时域和频域非线性变化;中枢神经系统的侧抑制机理。这种模型能反映在噪声环境下人对低能量语音的听觉感知特性,因而适于耳语音识别,在耳语音声韵母切分实验中得到了满意的结果。  相似文献   

6.
自动语音识别研究的人工神经网络方法   总被引:1,自引:0,他引:1  
  相似文献   

7.
The contributions of the static and dynamic articulatory information to speech recognition were evaluated, and the recognition approaches by combining the articulatory information with acoustic features were discussed. Articulatory movements were observed by the Electromagnetic Articulographic System for reading speech, and the speech signals were recorded simultaneously. First, we conducted several speech recognition experiments by using articulatory features alone, consisting of a number of specific articulatory channels, to evaluate the contribution of each observation point on articulators. Then, the displacement information of articulatory data were combined with acoustic features directly and adopted in speech recognition. The results show that articulatory information provides with additional information for speech recognition which is not encoded in acoustic features. Furthermore, the contribution of the dynamic information of the articulatory data was evaluated by combining them in speech recognition. It is found that the second derivative of articulatory information provided quite larger contribution to speech recognition comparing with the second derivative of acoustical information. At last, the combination methods of articulatory features and acoustic ones were investigated for speech recognition. The basic approach is that the Bayesian Network (BN) is added to each state of HMM, where the articulatory information is represented by the BN as a factor of observed signals during training the model and is marginalized as a hidden variable in recognition stage. Results based on this HMM/BN framework show a better performance than the traditional method.  相似文献   

8.
本文给出一种以时域检测获取基音候选,以动态规划提取全局优化的基音轮廓,以多级逼近截取有效调型段的基音检测器,并利用基音特征参数进行声调识别的方法。 本系统可以在不作话者训练条件下,简单、快速、准确地进行基音检测和声调识别。系统对男、女话者各1252个不同单音节的实验结果表明,声调正识率分别为98.9%和99.4%。  相似文献   

9.
景春进  陈东东  周琳琦 《应用声学》2014,22(8):2571-2573
针对舰艇指挥训练系统的特点,提出了一种利用语音识别技术提高其训练效率的方法;首先分析了舰艇指挥指令的语言特点,然后研究了基于Sphinx平台的汉语连续语音识别的相关问题,包括声学模型的训练、语言模型的训练及语音识别引擎等;最后设计并实现了一个非特定人,中等专用词汇量的连续汉语语音识别系统;实验采用了一定数量的数字和专用词汇进行验证,结果表明,经过声学模型训练后,该系统的识别率有较大提高;该方法对提高舰艇指挥训练系统的自动化水平具有一定的指导意义。  相似文献   

10.
杨洋  汪毓铎 《应用声学》2018,37(6):940-946
为了解决传统卷积神经网络识别连续语音数据时识别性能较差的问题,提出一种改进的卷积神经网络算法。该方法引入Fisher准则以及L2正则化约束,在反向传播调整参数阶段,既保证参数误差的最小化,又确保分类以后的样本类间分布较分散,类内分布较集中,同时保证网络权值具有合适的数量级以有效缓解过拟合问题;采用一种更符合生物神经元激活特性的新型log激活函数进行卷积神经网络的优化,进一步提高语音识别的正确率。在语音识别库TIMIT以及THCHS30上的实验结果表明,相较于传统卷积神经网络算法,本文提出的改进算法能较好的提高语音识别率,且泛化能力更强。  相似文献   

11.
郭洋  周翊  管鲁阳  鲍明 《应用声学》2019,38(1):8-15
针对直升机探测中目标运动过程连续识别的鲁棒性问题,提出了一种基于复合深度神经网络的直升机声学特征提取和识别框架。复合深度神经网络由卷积神经网络和长短时记忆神经网络以并行结构组合,进行直升机声学特征的优化,完成直升机类型识别。针对直升机声信号特性,对卷积神经网络进行了改进,使得该复合深度神经网络在信号短时谱基础上优化声信号特征表征并提取前后帧之间的相关信息,弥补通常声目标识别方法不能充分利用目标信号时间历程信息的缺陷。真实外场实验数据测试结果显示:相较于传统识别方法,该算法显著提升了直升机进入有效探测范围后连续识别的鲁棒性和目标识别正确率。  相似文献   

12.
本文提出了一种孤立词语音识别系统中基于后验概率差值的拒识算法。研究了作为拒识特征时,输入词的后验概率和后验概率差值之间的区别,并将多层感知人工神经网络用于拒识特征的学习。相比现存的几种拒识算法,本算法几乎不需要额外的计算和存储量。当识别率为98.2%时,拒识率达到了95.4%。  相似文献   

13.
张威  翟明浩  黄子龙  李巍  曹毅 《应用声学》2020,39(2):231-235
针对国内外缺少对振动轮噪声预估的问题,以某型振动轮为研究对象,首先基于动力学有限元理论对振动轮进行频率响应分析,其次采用声学边界元技术对振动轮辐射噪声进行了数值模拟,并通过实验验证了仿真结果的准确性,然后比较了垂直振动与圆周振动两种不同激振形式对辐射噪声的影响,得出垂直振动辐射噪声低的结论,最后对驾驶室声腔模态进行了仿真,与振动轮激振频率相近发生共振。通过调整激振频率,降低了司机耳旁噪声。所得研究成果可为振动轮辐射噪声的预估与改进提供一种切实可行的参考依据。  相似文献   

14.
谢将剑  杨俊  邢照亮  张卓  陈新 《应用声学》2020,39(2):207-215
针对短时窗平均/长时窗平均算法从次声台站监测数据中提取的信号仍然包含噪声的问题,对支持向量机和人工神经网络的机器学习方法进行了研究。采用小波包分解的方法对信号进行重构,提取出各频带内的重构信号能量特征,对事件信号和噪声进行了识别实验,并分析了提高识别能力的方法,为工程应用提供理论参考。实验结果表明,在训练数据集不大的情况下,通过优化模型结构可以将两种方法的识别能力提高到可以接受的水平。  相似文献   

15.
汉语耳语音孤立字识别研究   总被引:6,自引:0,他引:6       下载免费PDF全文
杨莉莉  林玮  徐柏龄 《应用声学》2006,25(3):187-192
耳语音识别有着广泛的应用前景,是一个全新的课题.但是由于耳语音本身的特点,如声级低、没有基频等,给耳语音识别研究带来了困难.本文根据耳语音信号发音模型,结合耳语音的声学特性,建立了一个汉语耳语音孤立字识别系统.由于耳语音信噪比低,必须对其进行语音增强处理,同时在识别系统中应用声调信息提高了识别性能.实验结果说明了MFCC结合幅值包络可作为汉语耳语音自动识别的特征参数,在小字库内用HMM模型识别得出的识别率为90.4%.  相似文献   

16.
针对传统机器视觉检测识别方法受到装配零件之间相互遮挡、零件不同位姿、外部光照强度、小目标漏检影响,检测准确率不高的问题,提出了一种改进的Faster RCNN(region-based convolutional neural networks)零件识别方法。首先使用提取特征更好的ResNet101网络代替原始Faster RCNN模型中的VGG16特征提取网络;其次针对原始候选区域网络,增加2个新的锚点并重新设置候选框的纵横比,以得到15种尺寸不同的锚点;然后针对传统非极大值抑制(non-maximum suppression,NMS)方法因删除交并比大于阈值的候选框而出现漏检问题,使用Soft-NMS方法替换传统的NMS方法,从而减少密集区域漏检的情况;最后在训练模型阶段采用多尺度训练策略,降低漏检率,提高模型准确率。对零件的识别实验结果表明:改进后的Faster RCNN模型能够达到96.1%的精度,较原始模型提升了4.6%,可以满足光照较强、存在水渍干扰等较为复杂环境中零件的识别检测。  相似文献   

17.
陈立伟  张晔 《应用声学》2006,25(2):90-95
研究了一种非齐次隐马尔可夫模型(Inhomogeneous Hidden Markov Model),然后将自组织特征映射神经网络与这种非齐次隐马尔可夫模型相结合,训练出抗噪声的HMM模型,并应用该混合模型进行语音识别。实验结果表明,该模型适合于对噪声背景下的语音进行识别。该模型具有更好的抗噪鲁棒性,在信噪比较低的情况下(5dB-10dB),识别率可以提高5%左右。  相似文献   

18.
徐舜  刘郁林  柏森 《应用声学》2008,27(3):173-180
盲分离算法能在缺少混合系统参数的条件下仅由观测信号估计初始源,但分离信号存在固有的排列模糊性,这往往导致两次批处理过程中同一信号"对不准",因此很难获得连续的源信号。本文针对盲声源分离中存在的相同问题,根据语音和其他音频信号的特征差异,提出一种修正的自相关函数并以其值作为一个特征基元来表征声音信号的时序相关特性,同时用平均声门波形状参数作为另一个特征基元来表征语音产生的生理效应。以这两个参数作为识别不同音频信号的二维模式特征,采用一种模糊聚类算法提取多路盲分离语音。本方法有效克服了批处理盲声源分离中的信号排列顺序的不确定性,并通过选择合适的阈值提取多路连续语音。仿真给出了5路混合音频信号中盲提取两路连续语音的实验结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号