期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

汉语耳语音孤立字识别研究 总被引：6，自引：0，他引：6

杨莉莉林玮徐柏龄《应用声学》2006,25(3):187-192

耳语音识别有着广泛的应用前景,是一个全新的课题.但是由于耳语音本身的特点,如声级低、没有基频等,给耳语音识别研究带来了困难.本文根据耳语音信号发音模型,结合耳语音的声学特性,建立了一个汉语耳语音孤立字识别系统.由于耳语音信噪比低,必须对其进行语音增强处理,同时在识别系统中应用声调信息提高了识别性能.实验结果说明了MFCC结合幅值包络可作为汉语耳语音自动识别的特征参数,在小字库内用HMM模型识别得出的识别率为90.4%. 相似文献

2.

面向鲁棒自动语音识别的一致性自监督学习方法

高长丰程高峰张鹏远《声学学报》2023,(3):578-587

提出了一种基于一致性自监督学习的鲁棒自动语音识别方法。该方法通过使用语音信号仿真技术,模拟一条语音在不同声学场景下的副本;在通过自监督学习方式学习语音表征的同时,极大化一条语音在不同声学环境下对应语音表征的相似性,从而获取到与环境干扰无关的语音表征方式,提高下游语音识别模型的性能。在远讲数据集CHiME-4和会议数据集AMI上的实验表明,所提的一致性自监督学习算法能够取得相比已有的wav2vec2.0自监督学习基线算法30%以上的识别词错误率下降。这表明,所提方法是一种获取噪声无关语音表征、提升鲁棒语音识别性能的有效方法。相似文献

3.

重庆方言语音识别系统的设计与实现

张策韦鹏程陆晓燕石熙《应用声学》2018,26(1)

语音识别赋予了计算机能够识别出语音内容的功能,是人机交互技术领域的重要研究内容。随着计算机技术的发展,语音识别已经得到了成熟的发展。但是关于方言的语音识别还有很大的发展空间。中国是一个幅员辽阔、人口众多的国家,因此方言种类繁多,其中有3000多万人交流使用的重庆方言就是其中之一。采集了重庆方言的部分词语的文本文件和对应的语音文件建立语料库,根据重庆方言的发音特点,选取重庆方言的声韵母作为声学建模基元,选取隐马尔可夫模型(Hidden Markov Model, HMM)为声学模型设计了一个基于HMM的重庆方言语音识别系统。在训练过程利用语料库中训练集语料对声学模型进行训练,形成HMM模型库;在识别过程利用语料库中的测试集语料进行识别测试。实验结果表明,该系统能够实现重庆方言的语音识别,并且识别的正确率为100%。相似文献

4.

第三届全国人机语音通讯学术会议在重庆召开

下载免费PDF全文

齐士钤《应用声学》1995,14(2):47-45

第三届全国人机语音通讯学术会议（NCMMSC－94）于1994年10月24日至27日在重庆西南师范大学学术交流中心举行．这次会议是由中国自动化学会模式识别与机器智能专业委员会、中国电子学会信号处理学会语音图象通讯专业委员会、中国声学学会语言、听觉和音乐声学分会、中国中文信息学会基础理论专业委员会、中国通信学会通信理论专业委员会和国家高技术智能计算机系统专家组等六单位联合主办，由四川大学计算中心承办．会议主席由平国声学学会语言、听觉和音乐声学分会主任委员张家股教授担任、副主席有方像棠教授等七人、程序委员会由王仁… 相似文献

5.

适用于自动语音识别的声道参数

俞铁成《物理》1998,27(2):125-125

适用于自动语音识别的声道参数￥中国科学院声学研究所＠俞铁城适用于自动语音识别的声道参数我们听到的语音是由舌、唇、喉等发音器官连续移动而产生的．这些发音器官调制嘴腔道中的气流形成语音而后到达我们的耳朵．可以自问一下，在我们感知语音时是否把这些发音器官的移动亦... 相似文献

6.

基于双向循环神经网络的汉语语音识别*

下载免费PDF全文

李鹏杨元维杜李慧高贤君周意蒋梦月张净波《应用声学》2020,39(3):464-471

当前基于深度神经网络模型中,虽然其隐含层可设置多层,对复杂问题适应能力强,但每层之间的节点连接是相互独立的,这种结构特性导致了在语音序列中无法利用上下文相关信息来提高识别效果,而传统的循环神经网络虽然做出了改进,但是只能对上文信息进行利用。针对以上问题,该文采用可以同时利用语音序列中上下文相关信息的双向循环神经网络模型与深度神经网络模型相结合,并应用于语音识别。构建具有5层隐含层的模型,其中第3层为双向循环神经网络结构,其他层采用深度神经网络结构。实验结果表明:加入了双向循环神经网络结构的模型与其他模型相比,较好地提高了识别正确率;噪声对双向循环神经网络汉语识别有重要影响,尤其是训练集和测试集附加噪声类型不同时,单一的含噪声语音的训练模型无法适应不同噪声类型的语音识别;调整神经网络模型中隐含层神经元数量后,识别正确率并不是一直随着隐含层中神经元数量的增加而增加,神经元数量数目增加到一定程度后正确率出现了降低的趋势。相似文献

7.

基于连续HMM的汉语数码语音识别系统

钟明辉曹乃文黄汉明郑建华陈芽玲《广西物理》2007,28(4):24-26

探讨了连续隐马尔可夫模型的基本原理及其在汉语数码语音识别中的应用,实现了一个汉语数码语音识别系统,其正确识别率达到99%以上。相似文献

8.

第六届全国语音图象通讯信号处理学术会议在四川召开

下载免费PDF全文

齐士钤《应用声学》1994,12(1):47-48

由中国声学学会语言听觉和音乐声学分会、中国电子学会信号处理学会语音图象通信专业委员会与四川省电子学会联合主办、由电子工业部西南通信研究所承办的第六届全国语音图象通讯信号处理学术会议于今年九月分四日在四川省南坪县召开．首先由会议主席电子工业部西南通信研究所所长刘村友教授致开幕词，中国科学院声学研究所副所长侯朝焕研究员发表讲话．开幕式上最后由刘村友教授做题为“通信保护动向趋势”的大会报告，这个报告概括了当今国际上通信保护的主要问题，受到与会者的重视与欢迎，并进行了讨论，对通讯保护这一研究领域加深了认… 相似文献

9.

一种改进的DNN-HMM的语音识别方法* 总被引：2，自引：1，他引：1

下载免费PDF全文

李云红梁思程贾凯莉张秋铭宋鹏何琛王刚毅李禹萱《应用声学》2019,38(3):371-377

针对深度神经网络与隐马尔可夫模型(DNN-HMM)结合的声学模型在语音识别过程中建模能力有限等问题,提出了一种改进的DNN-HMM模型语音识别算法。首先根据深度置信网络(DBN)结合深度玻尔兹曼机(DBM),建立深度神经网络声学模型,然后提取梅尔频率倒谱系数(MFCC)和对数域的Mel滤波器组系数(Fbank)作为声学特征参数,通过TIMIT语音数据集进行实验。实验结果表明:结合了DBM的DNN-HMM模型相比DNN-HMM模型更具优势,其中,使用MFCC声学特征在词错误率与句错误率方面分别下降了1.26%和0.20%。此外,使用默认滤波器组的Fbank特征在词错误率与句错误率方面分别下降了0.48%和0.82%,并且适量增加滤波器组可以降低错误率。总之,研究取得句错误率与词错误率分别降低到21.06%和3.12%的好成绩。相似文献

10.

基于听觉模型的耳语音的声韵切分 总被引：5，自引：0，他引：5

下载免费PDF全文

丁慧栗学丽徐柏龄《应用声学》2004,23(2):20-25,44

本文分析了耳语音的特点，并根据生理声学及心理声学的基本理论与实验资料，提出了一种利用听觉模型来进行耳语音声韵切分的方法。这种适用于耳语音声韵切分的听觉感知模型主要分为四个层次：耳蜗对声音频率的分解机理；听觉系统的时域和频域非线性变化；中枢神经系统的侧抑制机理。这种模型能反映在噪声环境下人对低能量语音的听觉感知特性，因而适于耳语音识别，在耳语音声韵母切分实验中得到了满意的结果。相似文献

11.

基于中文语音识别技术的舰艇指挥训练系统的研究

景春进陈东东周琳琦《应用声学》2014,22(8):2571-2573

针对舰艇指挥训练系统的特点,提出了一种利用语音识别技术提高其训练效率的方法;首先分析了舰艇指挥指令的语言特点,然后研究了基于Sphinx平台的汉语连续语音识别的相关问题,包括声学模型的训练、语言模型的训练及语音识别引擎等;最后设计并实现了一个非特定人,中等专用词汇量的连续汉语语音识别系统;实验采用了一定数量的数字和专用词汇进行验证,结果表明,经过声学模型训练后,该系统的识别率有较大提高;该方法对提高舰艇指挥训练系统的自动化水平具有一定的指导意义。 相似文献

12.

一种机器人智能语音识别算法研究

周璐璐邓江洪《应用声学》2014,22(10):3267-32693273

针对智能机器人在非特定人语音识别中识别率偏低的问题,提出了一种双门限的端点检测算法,精确地检测出了语音端点,对分形维数和Mel频率倒谱系数(MFCC)进行结合,同时基于隐马尔可夫(HMM)模型,提出了智能机器人命令识别系统;在实验室环境下,利用Cool Edit软件录制了5男5女的语音,采样率为8 kHz,精度为16位,内容为5个命令词,每个词均被采集6次,将每人的前3次发音作为模板语音,后3次发音作为测试语音,实验结果表明,系统识别率可以达到85%以上,MFCC与分形维数混合的语音特征参数的算法提高了系统识别率,优化了系统性能;该方法用于非特定人语音智能识别是可行的、有效的。 相似文献

13.

多通道同步信号采集与盲源分离研究

韩仲志黄汉明叶洪涛匡贵娟《广西物理》2007,28(4):14-16

扩展了麦克风语音采集电路和较大容量的存储器,基于凌阳16位单片机(SPCE061A)实现了多通道语音信号的实时同步采集。对采集的信号应用FastICA独立分量分析算法进行盲源分离,基于DTW算法对分离的语音进行识别,发现强噪声情况下识别结果良好,对语音识别与应用具有积极意义。相似文献

14.

声源追踪训练对语音型噪声中语音识别的影响

下载免费PDF全文

杜衣杭方卫宁《声学学报》2019,44(5):945-950

听觉训练可以提升人在噪声环境中语音识别的绩效.首先设计了一种以稳定声源为刺激的听觉追踪任务,在20个训练单元后,采用由干扰语音类型和信噪比两个因素构成3×5语音型噪声掩蔽下的语音识别测试验证了该训练方法的有效性.结果发现,训练组的语音识别率显著高于对照组,证明听觉注意力可以通过声源追踪任务的训练得到提高。实验结果表明,声源追踪训练可以使人在语音型噪声掩蔽下的听觉注意力水平趋于稳定。相似文献

15.

应用支持向量机和人工神经网络对大气次声信号识别的初步实验 总被引：1，自引：1，他引：0

下载免费PDF全文

吴涢晖邹士亚庞新良陈晓雷《应用声学》2020,39(2):216-222

语音情感识别在许多领域具有重要研究价值,不同声学情感特征在使用不同分类器进行分类时,识别效果具有明显差异。与语音情感有关的声学特征包括谱特征、韵律学特征、音质特征。该文提出一种特征融合的方法,将3种声学特征中具有最好识别能力的特征进行融合:保留在实验中表现稳定且有较高识别率的谱特征的全部特征,提取韵律学、音质特征的相关统计量作为辅助特征融合于谱特征中。实验表明,该文所提出的融合特征在使用同一分类器进行分类时,识别率优于单一特征;当使用不同分类器时,融合特征依然具有较好的识别能力,且识别性能稳定,3个数据集上均有较好的识别率,基本实现跨数据集识别。相似文献

16.

仿选择性注意机制的语音情感识别算法

梁瑞宇赵力陶华伟王青云邹采荣《声学学报》2016,41(4):537-544

有效特征的选取一直都是语音情感识别算法的关键。为此,针对语音情感特征选择与构建的问题,一种仿选择性注意机制的语音情感识别算法被提出。考虑到语音信号的时频特性,算法首先计算语音信号的语谱图;其次,模仿选择性注意机制,计算语谱图的颜色、方向和亮度特征图,归一化后形成特征矩阵;然后,将特征矩阵重排列并进行PCA降维,形成情感识别特征向量;最后,利用改进的支持向量机分类方法进行语音情感识别。对愤怒、恐惧、高兴、悲伤和惊奇5种情感的识别实验显示,基于选择性注意的方法能够获得较好的识别效果,平均识别率为85.44%。相比于韵律特征和音质特征,语音情感识别率至少提高10%;相比于其它语谱特征,识别率提高7%左右。相似文献

17.

基于线性调频Z变换和短波语音通话的飞机类型识别研究

下载免费PDF全文

聂东虎章佳荣于洋李雪耀《声学学报》2013,38(3):389-396

研究用短波语音通话携带的飞机舱室噪声对飞机类型进行识别的方法。分析了飞机舱室内噪声在短波信道和语音通话干扰下的物理特性,定义了估计语音段的飞机噪声信噪比的公式,提出了自适应的抑制语音增强飞机噪声的模型,通过CZT变换分别提取目标信号不同频段的功率谱密度级特征,并设计了用支持向量机进行分类识别的二叉分类树。对8类现场实测数据进行实验:增强后语音段的平均信噪比提高约22 dB,分类树对语音应答间隔噪声、语音段信号和增强后的信号的平均识别率分别为82.79%,15.25%,50.18%。实验表明:应答间隔噪声可用于飞机类型识别;语音抑制算法带来较大的信噪比和识别率增益,证明语音段蕴含有助于飞机类型识别的重要信息,可为后续的研究奠定基础。相似文献

18.

基于SOPC软核的孤立词语音识别系统设计与实现

王志高秦子雄《广西物理》2013,(1):46-49

详细分析了目前语音识别系统中普遍采用的Mel频率倒谱系数(MFCC)特征参数的提取过程和动态时间规整(DTW)识别算法流程,提出了一种在NiosII SOPC软核平台上通过提取和分析语音信号的MFCC特征参数实现语音识别解决方案。相似文献

19.

语音识别预处理中的ICA噪声适应性分析

韩仲志周梅芳叶洪涛覃溪黄汉明《广西物理》2006,27(1):26-28,31

针对高噪环境下语音识别的困难,提出一种基于独立分量分析的盲分离(ICA/BSS)与小波联合的语音降噪预处理方法,针对不同种类和不同输入信噪比的噪声设计了试验,结果表明基于ICA的语音识别预处理方法对低输入信噪比情况下多种噪声具有很强的鲁棒性和优越性,此结论对现实世界高噪环境下的信号分析和语音识别具有重要意义。相似文献

20.

说话人辨认中有效参数的研究 总被引：2，自引：0，他引：2

下载免费PDF全文

王炳锡张白愚《应用声学》1992,11(2):20-23

说话人辨认技术是语音识别中的一项重要应用，在我们研究的系统中，LPC参数并不是都很有效，我们用统计分析方法对12个预测系数、12个部分相关系数、12个对数面积比系数、12个倒谱系数、12个相关系数、短时能量、短时平均过零率及基音共63个参数，进行方差比检验，用10名男青年的三个元音的发音，在半年内采集97种语音作为试验材料，选出15个方差比比较大的作为识别参数，识别率为89.19%，采用样本刷新技术后，识别率达到97.3%。相似文献