首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 46 毫秒
1.
基于听觉模型的耳语音的声韵切分   总被引:5,自引:0,他引:5       下载免费PDF全文
丁慧  栗学丽  徐柏龄 《应用声学》2004,23(2):20-25,44
本文分析了耳语音的特点,并根据生理声学及心理声学的基本理论与实验资料,提出了一种利用听觉模型来进行耳语音声韵切分的方法。这种适用于耳语音声韵切分的听觉感知模型主要分为四个层次:耳蜗对声音频率的分解机理;听觉系统的时域和频域非线性变化;中枢神经系统的侧抑制机理。这种模型能反映在噪声环境下人对低能量语音的听觉感知特性,因而适于耳语音识别,在耳语音声韵母切分实验中得到了满意的结果。  相似文献   

2.
自动语音识别研究的人工神经网络方法   总被引:1,自引:0,他引:1  
  相似文献   

3.
当前基于深度神经网络模型中,虽然其隐含层可设置多层,对复杂问题适应能力强,但每层之间的节点连接是相互独立的,这种结构特性导致了在语音序列中无法利用上下文相关信息来提高识别效果,而传统的循环神经网络虽然做出了改进,但是只能对上文信息进行利用。针对以上问题,该文采用可以同时利用语音序列中上下文相关信息的双向循环神经网络模型与深度神经网络模型相结合,并应用于语音识别。构建具有5层隐含层的模型,其中第3层为双向循环神经网络结构,其他层采用深度神经网络结构。实验结果表明:加入了双向循环神经网络结构的模型与其他模型相比,较好地提高了识别正确率;噪声对双向循环神经网络汉语识别有重要影响,尤其是训练集和测试集附加噪声类型不同时,单一的含噪声语音的训练模型无法适应不同噪声类型的语音识别;调整神经网络模型中隐含层神经元数量后,识别正确率并不是一直随着隐含层中神经元数量的增加而增加,神经元数量数目增加到一定程度后正确率出现了降低的趋势。  相似文献   

4.
俞铁成 《物理》1998,27(2):125-125
适用于自动语音识别的声道参数¥中国科学院声学研究所@俞铁城适用于自动语音识别的声道参数我们听到的语音是由舌、唇、喉等发音器官连续移动而产生的.这些发音器官调制嘴腔道中的气流形成语音而后到达我们的耳朵.可以自问一下,在我们感知语音时是否把这些发音器官的移动亦...  相似文献   

5.
汉语语音视位的研究   总被引:7,自引:0,他引:7       下载免费PDF全文
MPEG-4首次作为国际标准正式定义了视位(Viseme)的概念,它是指与某一音位相对应的嘴、舌头、下腭等可视发音器官所处的状态。本文通过对汉语发音时各可见部分器官动作和发音规则的研究,将汉语发音分为28个基本静态视位。利用语音信息从AVI文件中自动抽取出这些基本视位图象,从MPEG-4所规定的68个面部动画参数(FAP)中提取出28个来描述这些口形,并实现了部分FAP参数的自动测量,最后,我们给出一个视位研究应用的实例。  相似文献   

6.
周健  郑文明  王青云  赵力 《声学学报》2014,39(4):501-508
提出两种基于非对称代价函数的耳语音增强算法,将语音增强过程中的放大失真和压缩失真区分对待。Modified ItakuraSaito (MIS)算法对放大失真给予更多的惩罚,而Kullback-Leibler (KL)算法则对压缩失真给予更多的惩罚。实验结果表明,在低于—6 dB的低信噪比情况中,经MIS算法增强后的耳语音的可懂度相比传统算法有显著提高;而KL算法则获得了同最小均方误差语音增强算法近似的可懂度提高效果,证实了耳语音中的放大失真和压缩失真对于耳语音可懂度的影响并不相同,低信噪比时较大的压缩失真有助于提高耳语音可懂度,而高信噪比时的压缩失真对耳语音可懂度影响较小。  相似文献   

7.
详细分析了目前语音识别系统中普遍采用的Mel频率倒谱系数(MFCC)特征参数的提取过程和动态时间规整(DTW)识别算法流程,提出了一种在NiosII SOPC软核平台上通过提取和分析语音信号的MFCC特征参数实现语音识别解决方案。  相似文献   

8.
从语音信号产生的数字模型出发,对1~10这10个汉语数字的语音信号进行预处理,提取了Mel频率倒谱系数,并将特征参数序列进行非线性时间规整为固定的帧数,使用BP神经网络的训练和识别,研究该方法的可行性和有效性。结果表明,在噪声环境下1,7,9的识别率为80%,而2,3,4,5,6,8,10的识别率都是100%,识别率主要受噪声、不同人的发音不同等因素的影响。该方法具有可行性强、识别率高的特点,可应用于语音识别系统。  相似文献   

9.
示波器广泛应用于大学物理实验教学中,相较于传统的模拟示波器,数字示波器将输入模拟信号转换为数字信号进行显示。设计了一个新的使用数字示波器进行人声音识别的综合性实验。实验中把压电陶瓷片贴于测试者的喉部靠近声带处,声带的振动转换为电信号后,使用数字示波器解析测试者的声音特征。在此基础上建立了含多个测试者的语音样本数据库,通过对于测试者声音频率的比对实现了对特定测试者的语音识别。该实验拓宽了示波器的实验教学内容,取得了良好的教学效果。  相似文献   

10.
提出了一种基于一致性自监督学习的鲁棒自动语音识别方法。该方法通过使用语音信号仿真技术,模拟一条语音在不同声学场景下的副本;在通过自监督学习方式学习语音表征的同时,极大化一条语音在不同声学环境下对应语音表征的相似性,从而获取到与环境干扰无关的语音表征方式,提高下游语音识别模型的性能。在远讲数据集CHiME-4和会议数据集AMI上的实验表明,所提的一致性自监督学习算法能够取得相比已有的wav2vec2.0自监督学习基线算法30%以上的识别词错误率下降。这表明,所提方法是一种获取噪声无关语音表征、提升鲁棒语音识别性能的有效方法。  相似文献   

11.
汉语自然口语中声调识别的研究   总被引:2,自引:0,他引:2       下载免费PDF全文
刘赵杰  邵健  张鹏远  赵庆卫  颜永红  冯稷 《物理学报》2007,56(12):7064-7069
汉语是一种带声调的语言,声调信息在汉语识别中具有非常重要的意义.传统的声调识别一般只研究朗读式语音中相对标准的声调,很少对声调调型比较复杂的自然口语进行专门的处理.针对汉语自然口语的特点,在声调建模单元的选择时提出了真实上下文的模型.同时,为了对声调模式进行精细建模,采用了一种层次聚类的方法来获得更多的声调模式.实验结果证明了方法的有效性. 关键词: 声调识别 自然口语 真实上下文模型 聚类  相似文献   

12.
Chinese word recognition (CWR) test was conducted by grades 3 and 5 children under the different conditions of reverberation time (RT), background noise level (BNL) and speech sound pressure level (SSPL) in three primary-school classrooms. The CWR scores and signal to noise ratios (SNRs) have been obtained at listening positions. Results show that the CWR score for grades 3 and 5 children increases with increase of SSPL, decrease of RT or increase of age, but it decreases with increase of BNL under the same conditions. For a mixed noise of 56 dBA (speech-spectrum-like noise and ambient noise), the CWR scores in the classroom for grades 3 and 5 children reach a peak at SNR of 15–20 dBA under the same RT and age of children condition. For the natural ambient noise, the CWR score for grades 3 and 5 children gradually increases with increase of the SNR. The high SSPL could not guarantee good CWR for children in classroom, which also depends on RT and BNL in classroom. When the classroom has long RT or high BNL, the increase of SSPL would not be necessarily to achieve better CWR. The novelty of the present study is to further evaluate and confirm the results under environments of real classrooms (not simulated room in laboratory).  相似文献   

13.
Study on the acoustical characteristic is important to speech and speaker recognition in Chinese whispered speech. In this paper, the characteristics of whispered speech are introduced and the acoustical characteristics in Chinese whispered speech are discussed. There is no fundamental frequency in the whispered speech, so other characteristics such as the duration and frequency of formant are extracted and analyzed. From experiments with six simple Chinese whispered vowels, it is proved that the duration and the frequency of formant can be used as the main acoustical characteristics in the Chinese whispered recognition.  相似文献   

14.
I.TntroductionStatisticalandneuralnetworkmcthodsforpatternclassiflcationusesignificantlydifTerentapproachesintrainingaclassificr.Inthestatistica1approach,thcformationofaclassifier1arge1ydependsonthestatisticsofthetrainingpatternsand,insomecases,theassumptionsaboutthedistributionofthepopulation.Theneuralnetworkmethodisnon-parametricandcanbeadaptivcinthetrainingprocessl'l.Becauseofitssimplicityandflexibility,theneuralnetworkhasbecnincreasing1yusedforpatternclassiflcation.Itisnowwe11knownthatan…  相似文献   

15.
本文提出了语音信号的一种时域-频域-能量表示,并给出了算法,可用于孤立词语音识别,这种时域-频域-能量表示有两个特点,基于短时能量梯度的非线性时间规正,可保留语音信号频域的过滤特性,丢掉其稳态特性,计算量小,适于实时应用。  相似文献   

16.
在波形网络中融合相位信息的骨导语音增强   总被引:3,自引:0,他引:3       下载免费PDF全文
已有骨导语音增强算法重点关注语音幅度谱增强,在波形合成时会因为相位不匹配导致语音质量下降。为解决该问题,提出了一种融合相位信息的波形网络(WaveNet)模型实现骨导语音增强波形生成。该方法以频带扩展WaveNet为基础,融合骨导语音相位谱信息与增强的语音幅度谱作为模型的条件特征,根据融合特征生成增强语音波形,实现了相位信息的有效利用。仿真实验综合对比了群时延谱和瞬时频率偏差谱相位特征,主客观结果表明,不论是采用串联融合还是卷积融合方式,骨导语音相位信息均有效补充了原有幅度谱条件特征,改善了语音增强效果。利用串联方式融合群时延谱特征可得到最佳结果,相比于原始骨导语音,平均意见得分(MOS)提升了约54.3%。  相似文献   

17.
褚钰  李田港  叶硕  叶光明 《应用声学》2020,39(2):223-230
为了解决传统卷积神经网络在识别中文语音时预测错误率较高、泛化性能弱的问题,首先以深度卷积神经网络(DCNN)-连接时序分类(CTC)为研究对象,深入分析了不同卷积层、池化层以及全连接层的组合对其性能的影响;其次,在上述模型的基础上,提出了多路卷积神经网络(MCNN)-连接时序分类(CTC),并联合SENet提出了深度SE-MCNN-CTC声学模型,该模型融合了MCNN与SENet的优势,既能加强卷积神经网络的深层信息的传递、避免梯度问题,又可以对提取的特征图进行自适应重标定。最终实验结果表明:SE-MCNN-CTC相较于DCNN-CTC错误率相对降低13.51%,模型最终的错误率达22.21%;算法改进后的声学模型可以有效地提升泛化性能。  相似文献   

18.
I.IntroductionRecentlytherearemanykindsofsystemsandproductsforspeechrecognition,butalmostallofthemareworkinginquietenvironment,theperformancearedegradedorevencan'tworkwhenitisoperatedinhighnoisyenvironmentssuchasincockpits,vehicle,workshopsetc.SonoiserobustnesshasbecomeoneofthemainobstaclesfortherealaPplicationsoftheautomaticspeechrecognizersanditattractstheattentionofresearchersinspeechtechnologyareas.Since1978,substantialeffortshavebeendevotedtotestandevaluatethespeechrecognizersusedinfight…  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号