共查询到20条相似文献,搜索用时 609 毫秒
1.
2.
提出了一种基于一致性自监督学习的鲁棒自动语音识别方法。该方法通过使用语音信号仿真技术,模拟一条语音在不同声学场景下的副本;在通过自监督学习方式学习语音表征的同时,极大化一条语音在不同声学环境下对应语音表征的相似性,从而获取到与环境干扰无关的语音表征方式,提高下游语音识别模型的性能。在远讲数据集CHiME-4和会议数据集AMI上的实验表明,所提的一致性自监督学习算法能够取得相比已有的wav2vec2.0自监督学习基线算法30%以上的识别词错误率下降。这表明,所提方法是一种获取噪声无关语音表征、提升鲁棒语音识别性能的有效方法。 相似文献
3.
语音识别赋予了计算机能够识别出语音内容的功能,是人机交互技术领域的重要研究内容。随着计算机技术的发展,语音识别已经得到了成熟的发展。但是关于方言的语音识别还有很大的发展空间。中国是一个幅员辽阔、人口众多的国家,因此方言种类繁多,其中有3000多万人交流使用的重庆方言就是其中之一。采集了重庆方言的部分词语的文本文件和对应的语音文件建立语料库,根据重庆方言的发音特点,选取重庆方言的声韵母作为声学建模基元,选取隐马尔可夫模型(Hidden Markov Model, HMM)为声学模型设计了一个基于HMM的重庆方言语音识别系统。在训练过程利用语料库中训练集语料对声学模型进行训练,形成HMM模型库;在识别过程利用语料库中的测试集语料进行识别测试。实验结果表明,该系统能够实现重庆方言的语音识别,并且识别的正确率为100%。 相似文献
4.
第三届全国人机语音通讯学术会议(NCMMSC-94)于1994年10月24日至27日在重庆西南师范大学学术交流中心举行.这次会议是由中国自动化学会模式识别与机器智能专业委员会、中国电子学会信号处理学会语音图象通讯专业委员会、中国声学学会语言、听觉和音乐声学分会、中国中文信息学会基础理论专业委员会、中国通信学会通信理论专业委员会和国家高技术智能计算机系统专家组等六单位联合主办,由四川大学计算中心承办.会议主席由平国声学学会语言、听觉和音乐声学分会主任委员张家股教授担任、副主席有方像棠教授等七人、程序委员会由王仁… 相似文献
5.
适用于自动语音识别的声道参数¥中国科学院声学研究所@俞铁城适用于自动语音识别的声道参数我们听到的语音是由舌、唇、喉等发音器官连续移动而产生的.这些发音器官调制嘴腔道中的气流形成语音而后到达我们的耳朵.可以自问一下,在我们感知语音时是否把这些发音器官的移动亦... 相似文献
6.
当前基于深度神经网络模型中,虽然其隐含层可设置多层,对复杂问题适应能力强,但每层之间的节点连接是相互独立的,这种结构特性导致了在语音序列中无法利用上下文相关信息来提高识别效果,而传统的循环神经网络虽然做出了改进,但是只能对上文信息进行利用。针对以上问题,该文采用可以同时利用语音序列中上下文相关信息的双向循环神经网络模型与深度神经网络模型相结合,并应用于语音识别。构建具有5层隐含层的模型,其中第3层为双向循环神经网络结构,其他层采用深度神经网络结构。实验结果表明:加入了双向循环神经网络结构的模型与其他模型相比,较好地提高了识别正确率;噪声对双向循环神经网络汉语识别有重要影响,尤其是训练集和测试集附加噪声类型不同时,单一的含噪声语音的训练模型无法适应不同噪声类型的语音识别;调整神经网络模型中隐含层神经元数量后,识别正确率并不是一直随着隐含层中神经元数量的增加而增加,神经元数量数目增加到一定程度后正确率出现了降低的趋势。 相似文献
7.
8.
由中国声学学会语言听觉和音乐声学分会、中国电子学会信号处理学会语音图象通信专业委员会与四川省电子学会联合主办、由电子工业部西南通信研究所承办的第六届全国语音图象通讯信号处理学术会议于今年九月分四日在四川省南坪县召开.首先由会议主席电子工业部西南通信研究所所长刘村友教授致开幕词,中国科学院声学研究所副所长侯朝焕研究员发表讲话.开幕式上最后由刘村友教授做题为“通信保护动向趋势”的大会报告,这个报告概括了当今国际上通信保护的主要问题,受到与会者的重视与欢迎,并进行了讨论,对通讯保护这一研究领域加深了认… 相似文献
9.
针对深度神经网络与隐马尔可夫模型(DNN-HMM)结合的声学模型在语音识别过程中建模能力有限等问题,提出了一种改进的DNN-HMM模型语音识别算法。首先根据深度置信网络(DBN)结合深度玻尔兹曼机(DBM),建立深度神经网络声学模型,然后提取梅尔频率倒谱系数(MFCC)和对数域的Mel滤波器组系数(Fbank)作为声学特征参数,通过TIMIT语音数据集进行实验。实验结果表明:结合了DBM的DNN-HMM模型相比DNN-HMM模型更具优势,其中,使用MFCC声学特征在词错误率与句错误率方面分别下降了1.26%和0.20%。此外,使用默认滤波器组的Fbank特征在词错误率与句错误率方面分别下降了0.48%和0.82%,并且适量增加滤波器组可以降低错误率。总之,研究取得句错误率与词错误率分别降低到21.06%和3.12%的好成绩。 相似文献
10.
11.
12.
针对智能机器人在非特定人语音识别中识别率偏低的问题,提出了一种双门限的端点检测算法,精确地检测出了语音端点,对分形维数和Mel频率倒谱系数(MFCC)进行结合,同时基于隐马尔可夫(HMM)模型,提出了智能机器人命令识别系统;在实验室环境下,利用Cool Edit软件录制了5男5女的语音,采样率为8 kHz,精度为16位,内容为5个命令词,每个词均被采集6次,将每人的前3次发音作为模板语音,后3次发音作为测试语音,实验结果表明,系统识别率可以达到85%以上,MFCC与分形维数混合的语音特征参数的算法提高了系统识别率,优化了系统性能;该方法用于非特定人语音智能识别是可行的、有效的。 相似文献
13.
14.
15.
语音情感识别在许多领域具有重要研究价值,不同声学情感特征在使用不同分类器进行分类时,识别效果具有明显差异。与语音情感有关的声学特征包括谱特征、韵律学特征、音质特征。该文提出一种特征融合的方法,将3种声学特征中具有最好识别能力的特征进行融合:保留在实验中表现稳定且有较高识别率的谱特征的全部特征,提取韵律学、音质特征的相关统计量作为辅助特征融合于谱特征中。实验表明,该文所提出的融合特征在使用同一分类器进行分类时,识别率优于单一特征;当使用不同分类器时,融合特征依然具有较好的识别能力,且识别性能稳定,3个数据集上均有较好的识别率,基本实现跨数据集识别。 相似文献
16.
有效特征的选取一直都是语音情感识别算法的关键。为此,针对语音情感特征选择与构建的问题,一种仿选择性注意机制的语音情感识别算法被提出。考虑到语音信号的时频特性,算法首先计算语音信号的语谱图;其次,模仿选择性注意机制,计算语谱图的颜色、方向和亮度特征图,归一化后形成特征矩阵;然后,将特征矩阵重排列并进行PCA降维,形成情感识别特征向量;最后,利用改进的支持向量机分类方法进行语音情感识别。对愤怒、恐惧、高兴、悲伤和惊奇5种情感的识别实验显示,基于选择性注意的方法能够获得较好的识别效果,平均识别率为85.44%。相比于韵律特征和音质特征,语音情感识别率至少提高10%;相比于其它语谱特征,识别率提高7%左右。 相似文献
17.
研究用短波语音通话携带的飞机舱室噪声对飞机类型进行识别的方法。分析了飞机舱室内噪声在短波信道和语音通话干扰下的物理特性,定义了估计语音段的飞机噪声信噪比的公式,提出了自适应的抑制语音增强飞机噪声的模型,通过CZT变换分别提取目标信号不同频段的功率谱密度级特征,并设计了用支持向量机进行分类识别的二叉分类树。对8类现场实测数据进行实验:增强后语音段的平均信噪比提高约22 dB,分类树对语音应答间隔噪声、语音段信号和增强后的信号的平均识别率分别为82.79%,15.25%,50.18%。实验表明:应答间隔噪声可用于飞机类型识别;语音抑制算法带来较大的信噪比和识别率增益,证明语音段蕴含有助于飞机类型识别的重要信息,可为后续的研究奠定基础。 相似文献
18.
详细分析了目前语音识别系统中普遍采用的Mel频率倒谱系数(MFCC)特征参数的提取过程和动态时间规整(DTW)识别算法流程,提出了一种在NiosII SOPC软核平台上通过提取和分析语音信号的MFCC特征参数实现语音识别解决方案。 相似文献
19.