期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

褚钰李田港叶硕叶光明《应用声学》2020,39(2):223-230

为了解决传统卷积神经网络在识别中文语音时预测错误率较高、泛化性能弱的问题,首先以深度卷积神经网络(DCNN)-连接时序分类(CTC)为研究对象,深入分析了不同卷积层、池化层以及全连接层的组合对其性能的影响;其次,在上述模型的基础上,提出了多路卷积神经网络(MCNN)-连接时序分类(CTC),并联合SENet提出了深度SE-MCNN-CTC声学模型,该模型融合了MCNN与SENet的优势,既能加强卷积神经网络的深层信息的传递、避免梯度问题,又可以对提取的特征图进行自适应重标定。最终实验结果表明:SE-MCNN-CTC相较于DCNN-CTC错误率相对降低13.51%,模型最终的错误率达22.21%;算法改进后的声学模型可以有效地提升泛化性能。相似文献

2.

基于发音特征的汉语普通话语音声学建模 总被引：3，自引：0，他引：3

张晴晴潘接林颜永红《声学学报》2010,35(2):254-260

将表征汉语普通话语音特点的发音特征引入汉语普通话语音识别的声学建模中,根据普通话发音特点,确定了用于区别普通话元音、辅音以及声调信息的9种发音特征,并以此为目标值训练神经网络得到语音信号属于各类发音特征的后验概率,将此概率作为语音识别的输入特征建立声学模型。在汉语普通话非特定人大词表自然口语对话识别系统中进行了实验验证,并与基于频谱特征的声学模型进行了比较,在相同解码速度下,由此方法建立的声学模型汉字错误率相对下降6.8%;将发音特征和频谱特征进行了融合实验,融合以后的识别系统相对基于频谱特征系统的汉字错误率相对下降10.1%。上述结果表明,基于发音特征的声学模型更加有效的实现了对语音特性的表征,通过利用发音特征和频谱特征的互补性,能够进一步实现对语音识别性能的提高。相似文献

3.

连接时序分类准则声学建模方法优化 总被引：2，自引：1，他引：1

下载免费PDF全文

王智超张鹏远潘接林颜永红《声学学报》2018,43(6):984-990

对基于连接时序分类准则(connectionist temporal classification,CTC)的端到端声学建模方法进行研究和优化。研究分析了不同声学特征、建模单元以及神经网络结构对CTC声学模型性能的影响,针对CTC模型中blank符号共享导致的建模缺陷提出了建模单元相关的非共享blank方法进行改进,并引入融合建模单元关联信息的模型初始化方法进一步提高CTC模型的性能。在300小时标准英文数据集Switchboard的实验结果显示,结合非共享blank、时延神经网络以及融合建模单元关联信息的初始化方法,CTC声学模型相对于基线系统在词错误率上取得绝对1.1%的下降,同时在训练速度上取得3.3倍的提高,实验结果证明本文针对端到端声学建模提出的优化方法是有效的。相似文献

4.

多声学场景下端到端语音识别声学编码器的自适应

刘育坤郑霖黎塔张鹏远《声学学报》2023,(6):1260-1268

提出了一种面向多样化声学场景自适应设计声学编码器的方法 (SAE)。该方法通过学习不同声学场景下语音中包含的声学特征的差异,适应性地为端到端语音识别任务设计出合适的声学编码器。通过引入神经网络结构搜索技术,提高了编码器设计的有效性,从而改善了下游识别任务的性能。在Aishell-1、HKUST和SWBD三个常用的中英文数据集上的实验表明,通过所提场景自适应设计方法得到的声学编码器相比已有的声学编码器可以获得平均5%以上的错误率改善。所提方法是一种深入分析特定场景下语音特征、针对性设计高性能声学编码器的有效方法。相似文献

5.

低信噪比下公共场所异常声音声学特征提取

下载免费PDF全文

李伟红王伟冰龚卫国《声学学报》2019,44(5):934-944

为了实现低信噪比下公共场所异常声音声学特征提取,提出经验小波滤波器组用于提取异常声音声学特征。首先,根据等效矩形带宽的人耳听觉特性,得到各滤波器的中心频率,计算出经验小波滤波器组的边界。然后,将边界代入经验小波细节函数和尺度函数中,形成经验小波滤波器组。最后,用经验小波滤波器组分解低信噪比下公共场所异常声音,经分解的各模态归一化对数能量作为异常声音声学特征,用于分类识别。相关实验表明,提出的经验小波滤波器组与典型的语音信号处理及时频信号处理方法相比,在低信噪比(0 dB)的商店、银行、办公室、自动取款机环境下,对异常声音的平均识别率提高了4.75%~37.92%,验证了提出方法的有效性。相似文献

6.

基于多带解调分析和瞬时频率估计的耳语音话者识别 总被引：4，自引：0，他引：4

王敏赵鹤鸣《声学学报》2010,35(4):471-476

为了改善耳语音话者识别的稳健性,提出了一种基于调幅-调频(AM-FM)模型的耳语音特征参数,瞬时频率估计(IFE)。根据语音产生的共振峰调制理论,采用多带解调分析(MDA)获得语音的瞬时包络和频率;然后根据包络幅度和频率的加权估计,得到语音的特征IFE来描绘语音的频率结构。将该特征用于耳语话者识别并和传统的Mel倒谱系数(MFCC)进行了比较。实验结果表明,随着测试人数的增加,IFE的识别效果略好于MFCC;在测试信道改变的情况下,与MFCC相比IFE的稳健性得到了有效的提高。相似文献

7.

一种机器人智能语音识别算法研究

周璐璐邓江洪《应用声学》2014,22(10):3267-32693273

针对智能机器人在非特定人语音识别中识别率偏低的问题,提出了一种双门限的端点检测算法,精确地检测出了语音端点,对分形维数和Mel频率倒谱系数(MFCC)进行结合,同时基于隐马尔可夫(HMM)模型,提出了智能机器人命令识别系统;在实验室环境下,利用Cool Edit软件录制了5男5女的语音,采样率为8 kHz,精度为16位,内容为5个命令词,每个词均被采集6次,将每人的前3次发音作为模板语音,后3次发音作为测试语音,实验结果表明,系统识别率可以达到85%以上,MFCC与分形维数混合的语音特征参数的算法提高了系统识别率,优化了系统性能;该方法用于非特定人语音智能识别是可行的、有效的。 相似文献

8.

卷积噪声环境下语音信号鲁棒特征提取

吕钊吴小培张超李密《声学学报》2010,35(4):465-470

提出了一种基于独立分量分析(ICA)的语音信号鲁棒特征提取算法,用以解决在卷积噪声环境下语音信号的训练与识别特征不匹配的问题。该算法通过短时傅里叶变换将带噪语音信号从时域转换到频域后,采用复值ICA方法从带噪语音的短时谱中分离出语音信号的短时谱,然后根据所得到的语音信号短时谱计算美尔倒谱系数(MFCC)及其一阶差分作为特征参数。在仿真与真实环境下汉语数字语音识别实验中,所提算法相比较传统的MFCC其识别正确率分别提升了34.8%和32.6%。实验结果表明基于ICA方法的语音特征在卷积噪声环境下具有良好的鲁棒性。相似文献

9.

合成语声的声学分析及识别特征算法

下载免费PDF全文

周峻林胡晓光黄子旭汪旭付哲宇《应用声学》2024,43(1):131-141

当前社会新型犯罪中电信诈骗案件频发,急需一种能够自动有效区分语声真伪的方法。为进一步增强目前深度学习领域识别合成语声的能力,为保障语声信息安全提供技术上的支持,针对合成语声声学特性上异于真实语声的特点,分析对比合成语声和真实语声的声学特性,设计了一种声学特征均方根角量化语声声强变化程度,结合基频变化率和语声窄带频谱图声学特征进行融合,量化了声学特性差异,聚焦了合成语声中关键声学信息。在神经网络模型中融合输入声学特征,在FoR数据集的验证集上得到了0.6%的等错误率,在测试集上最好结果达到了10.8%的等错误率。该文成功实现了对合成语声的识别,证实了声学特征的有效性和研究方案的可行性,在一定程度上拓宽了合成语声特征设计的研究思路。相似文献

10.

面向鲁棒自动语音识别的一致性自监督学习方法

高长丰程高峰张鹏远《声学学报》2023,(3):578-587

提出了一种基于一致性自监督学习的鲁棒自动语音识别方法。该方法通过使用语音信号仿真技术,模拟一条语音在不同声学场景下的副本;在通过自监督学习方式学习语音表征的同时,极大化一条语音在不同声学环境下对应语音表征的相似性,从而获取到与环境干扰无关的语音表征方式,提高下游语音识别模型的性能。在远讲数据集CHiME-4和会议数据集AMI上的实验表明,所提的一致性自监督学习算法能够取得相比已有的wav2vec2.0自监督学习基线算法30%以上的识别词错误率下降。这表明,所提方法是一种获取噪声无关语音表征、提升鲁棒语音识别性能的有效方法。相似文献

11.

声门下共鸣的谱规整用于非特定人的语音识别

侯丽敏黄振华谢娟敏《声学学报》2010,35(5):580-586

提出在参数的提取过程中用不同的感知规整因子对不同人的参数归一化,从而实现在非特定人语音识别中对不同人的归一化处理。感知规整因子是基于声门上和声门下之间耦合作用产生声门下共鸣频率来估算的,与采用声道第三共振峰作为基准频率的方法比较,它能较多的滤除语义信息的影响,更好地体现说话人的个性特征。本文提取抗噪性能优于Mel倒谱参数的感知最小方差无失真参数作为识别特征,语音模型用经典的隐马尔可夫模型(HMM)。实验证明,本文方法与传统的语音识别参数和用声道第三共振峰进行谱规整的方法相比,在干净语音中单词错误识别率分别下降了4%和3%,在噪声环境下分别下降了9%和5%,有效地改善了非特定人语音识别系统的性能。相似文献

12.

SE-MCNN-CTC的中文语音识别声学模型

张威翟明浩黄子龙李巍曹毅《应用声学》2020,39(2):231-235

针对国内外缺少对振动轮噪声预估的问题,以某型振动轮为研究对象,首先基于动力学有限元理论对振动轮进行频率响应分析,其次采用声学边界元技术对振动轮辐射噪声进行了数值模拟,并通过实验验证了仿真结果的准确性,然后比较了垂直振动与圆周振动两种不同激振形式对辐射噪声的影响,得出垂直振动辐射噪声低的结论,最后对驾驶室声腔模态进行了仿真,与振动轮激振频率相近发生共振。通过调整激振频率,降低了司机耳旁噪声。所得研究成果可为振动轮辐射噪声的预估与改进提供一种切实可行的参考依据。相似文献

13.

汉语耳语音孤立字识别研究 总被引：6，自引：0，他引：6

下载免费PDF全文

杨莉莉林玮徐柏龄《应用声学》2006,25(3):187-192

耳语音识别有着广泛的应用前景,是一个全新的课题.但是由于耳语音本身的特点,如声级低、没有基频等,给耳语音识别研究带来了困难.本文根据耳语音信号发音模型,结合耳语音的声学特性,建立了一个汉语耳语音孤立字识别系统.由于耳语音信噪比低,必须对其进行语音增强处理,同时在识别系统中应用声调信息提高了识别性能.实验结果说明了MFCC结合幅值包络可作为汉语耳语音自动识别的特征参数,在小字库内用HMM模型识别得出的识别率为90.4%. 相似文献

14.

改进的梅尔倒谱系数在低空飞行器特征提取中的应用*

下载免费PDF全文

肖寒春郭俊峰张丽《应用声学》2018,37(6):909-915

梅尔倒谱系数特征提取技术依据人耳的感知特性将声信号从线性频域转换到梅尔域,在语音识别中得到广泛应用。该文将梅尔倒谱系数技术用于小型低空飞行器的声信号特征提取中,并针对螺旋桨驱动类的小型低空飞行器具有稳定的强谐波特性,对梅尔倒谱系数特征提取中使用的梅尔滤波器进行改进,通过对此类谐波处的线性频谱与梅尔谱转换曲线的斜率进行投影替换,提高滤波器对该谐波处信号的感知敏感度。仿真结果表明,使用改进的梅尔倒谱系数特征提取方法对小型低空飞行器进行特征提取时,能够得到更低的等误识率,并且在低信噪比环境中,改进的梅尔倒谱系数特征提取方法具有更好的抗噪能力。相似文献

15.

Influence of the method of acoustic feature representation on the phoneme recognition efficiency with perceptron

P. E. Ovchinnikov Yu. A. Semin 《Radiophysics and Quantum Electronics》2007,50(4):317-323

We study different methods of acoustic feature representation for the phoneme recognition problem using an artificial neural network. Feature representation methods are compared using the results of phoneme recognition and clustering of the parameters retrieved from speech signals. The best results of phoneme recognition are obtained by using a filter bank for acoustic feature representation. __________ Translated from Izvestiya Vysshikh Uchebnykh Zavedenii, Radiofizika, Vol. 50, No. 4, pp. 350–356, April 2007. 相似文献

16.

Acoustic Measures of Symptoms in Abductor Spasmodic Dysphonia

Julia D. Edgar Christine M. Sapienza Kimberly Bidus Christy L. Ludlow 《Journal of voice》2001,15(3):362

Speech of patients with abductor spasmodic dysphonia (ABSD) was analyzed using acoustic analyses to determine: (1) which acoustic measures differed from controls and were independent factors representing patients' voice control difficulties, and (2) whether acoustic measures related to blinded perceptual counts of the symptom frequency in the same patients. Patients' voice onset time for voiceless consonants in speech were significantly longer than the controls (p = 0.015). A principle components analysis identified three factors that accounted for 95% of the variance: the first factor included sentence and word duration, frequency shifts, and aperiodic instances; the second was phonatory breaks; and the third was voice onset time. Significant relationships with perceptual counts of symptoms were found for the measures of acoustic disruptions in sentences and sentence duration. Finally, a multiple regression demonstrated that the acoustic measures related well with the perceptual counts (r² = 0.84) with word duration most highly related and none of the other measures contributing once the effect of word duration was partialed out. The results indicate that some of the voice motor control deficits, namely aperiodicity, phonatory breaks, and frequency shifts, which occur in patients with ABSD, are similar to those previously found in adductor spasmodic dysphonia. Results also indicate that acoustic measures of intermittent disruptions in speech, voice onset time, and speech duration are closely related to the perception of symptom frequency in the disorder. 相似文献

17.

Speech processing studies using an acoustic model of a multiple-channel cochlear implant 总被引：1，自引：0，他引：1

P J Blamey R C Dowell Y C Tong A M Brown S M Luscombe G M Clark 《The Journal of the Acoustical Society of America》1984,76(1):104-110

The speech perception of two multiple-channel cochlear implant patients was compared with that of three normally hearing listeners using an acoustic model of the implant for 22 different speech tests. The tests used included a minimal auditory capabilities battery, both closed-set and open-set word and sentence tests, speech tracking and a 12-consonant confusion study using nonsense syllables. The acoustic model represented electrical current pulses by bursts of noise and the effects of different electrodes were represented by using bandpass filters with different center frequencies. All subjects used a speech processor that coded the fundamental voicing frequency of speech as a pulse rate and the second formant frequency of speech as the electrode position in the cochlea, or the center frequency of the bandpass filter. Very good agreement was found for the two groups of subjects, indicating that the acoustic model is a useful tool for the development and evaluation of alternative cochlear implant speech processing strategies. 相似文献

18.

A bio-inspired emotion recognition system under real-life conditions

Farah Chenchah Zied Lachiri 《Applied Acoustics》2017

相似文献

19.

Exploiting independent filter bandwidth of human factor cepstral coefficients in automatic speech recognition

Skowronski MD Harris JG 《The Journal of the Acoustical Society of America》2004,116(3):1774-1780

Mel frequency cepstral coefficients (MFCC) are the most widely used speech features in automatic speech recognition systems, primarily because the coefficients fit well with the assumptions used in hidden Markov models and because of the superior noise robustness of MFCC over alternative feature sets such as linear prediction-based coefficients. The authors have recently introduced human factor cepstral coefficients (HFCC), a modification of MFCC that uses the known relationship between center frequency and critical bandwidth from human psychoacoustics to decouple filter bandwidth from filter spacing. In this work, the authors introduce a variation of HFCC called HFCC-E in which filter bandwidth is linearly scaled in order to investigate the effects of wider filter bandwidth on noise robustness. Experimental results show an increase in signal-to-noise ratio of 7 dB over traditional MFCC algorithms when filter bandwidth increases in HFCC-E. An important attribute of both HFCC and HFCC-E is that the algorithms only differ from MFCC in the filter bank coefficients: increased noise robustness using wider filters is achieved with no additional computational cost. 相似文献