首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
利用倒谱方法实现气声发育的重建   总被引:1,自引:0,他引:1       下载免费PDF全文
李国锋  刘莹 《应用声学》1996,15(5):41-44
本文介绍了一种利用复倒谱来实现气声发音重建的方法,首先分析了气声发音的语音特征;进而在复倒谱序列中加入基频率特征其恢复到正常的语音,对元音(a)以及实际语音段进行了处理。均有较好的效果。  相似文献   

2.
吕钊  吴小培  张超  李密 《声学学报》2010,35(4):465-470
提出了一种基于独立分量分析(ICA)的语音信号鲁棒特征提取算法,用以解决在卷积噪声环境下语音信号的训练与识别特征不匹配的问题。该算法通过短时傅里叶变换将带噪语音信号从时域转换到频域后,采用复值ICA方法从带噪语音的短时谱中分离出语音信号的短时谱,然后根据所得到的语音信号短时谱计算美尔倒谱系数(MFCC)及其一阶差分作为特征参数。在仿真与真实环境下汉语数字语音识别实验中,所提算法相比较传统的MFCC其识别正确率分别提升了34.8%和32.6%。实验结果表明基于ICA方法的语音特征在卷积噪声环境下具有良好的鲁棒性。   相似文献   

3.
听觉计算模型在鲁棒性语音识别中的应用   总被引:3,自引:1,他引:2  
利用听觉感知机理,建立一个基于听觉感知机理的语音信号特征提取模型。本文由两部分组成,一部分是在传统听觉计算模型基础上提出听觉倒谱特征AFCC(AnditoryFrequencyCepstralCoefficient)的提取方法,这样既压缩了特征维数,减小计算量,又使各个特征维之间相互独立,满足HMM模型的要求。并且根据听觉神经中枢的长时整合特性,文中提出了用低通滤波模型来模拟这种功能。结合该低通模型,提取的语音信号的听觉倒谱特征在HMM框架下取得较好的鲁律性。另一部分在研究听觉侧抑制机理的基础上,提出一个简单有效的听觉侧抑制处理模型。美尔倒谱特征MFCC谱特征经过该侧抑制模型处理,得到侧抑制美倒谱特征MFCCI,实验表明,该新特征MFCCI鲁棒性能比MFCC有大大提高。听觉倒谱特征AFCC经过该侧抑制处理得到侧抑制听觉倒谱特征AFCCI,实验表明,该新特征AFCCI鲁律性能比AFCC有大大提高。  相似文献   

4.
采用低维特征映射的耳语音向正常音转换   总被引:1,自引:0,他引:1       下载免费PDF全文
在将耳语音转换为正常音时,为了研究降维后语音特征对耳语音转换的影响,分别对耳语音和正常音谱包络进行自适应编码以提取耳语音和正常音的低维特征,然后使用BP网络建立耳语音和正常音低维谱包络特征之间的映射关系以及正常音基频和耳语音低维谱包络特征之间的关系。转换时,根据耳语音低维谱包络特征获得对应正常音的低维谱包络特征和基频,对低维谱包络特征进行解码后获得对应的正常音谱包络。实验结果表明,采用此方法转换后的语音与正常音之间的倒谱距离相比高斯混合模型方法下降了10%,转换后语音的自然度和可懂度都有所提高。   相似文献   

5.
针对非平行语料非联合训练条件下的语音转换,提出一种基于倒谱本征空间结构化高斯混合模型的方法。提取说话人语音倒谱特征参数之后,根据其散布矩阵计算本征向量构造倒谱本征空间并训练结构化高斯混合模型SGMM-ES(Structured Gaussian Mixture Model in Eigen Space)。源和目标说话人各自独立训练的SGMM-ES根据全局声学结构AUS(Acoustical Universal Structure)原理进行匹配对准,最终得到基于倒谱本征空间的短时谱转换函数。实验结果表明,转换语音的目标说话人平均识别率达到95.25%,平均谱失真度为1.25,相对基于原始倒谱特征空间的SGMM方法分别提高了0.8%和7.3%,而ABX和MOS测评表明转换性能非常接近于传统平行语料方法。这一结果说明采用倒谱本征空间结构化高斯混合模型进行非平行语料条件下的语音转换是有效的。   相似文献   

6.
利用深度卷积神经网络将耳语转换为正常语音   总被引:1,自引:0,他引:1       下载免费PDF全文
耳语是一种特殊发音方式,将耳语转换为正常语音是提升耳语质量和可懂度的关键方法。为了充分利用语音的频域和时域相关性实现耳语转换,提出了使用深度卷积神经网络(Deep Convolutional Neural Networks,DCNN)将耳语转换为正常语音。它的卷积层用来提取连续帧语音谱包络之间的频域与时域的相关特征,而全连接层用来拟合耳语在卷积层提取的特征和对应正常语音之间的映射关系。实验结果表明与深度神经网络(Deep Neural Networks,DNN)模型相比,DCNN模型获得的转换后语音的梅尔倒谱失真度(Cepstral Distance,CD)降低了4.64%,而语音质量感知评价(Perceptual Evaluation of Speech Quality,PESQ)、短时客观可懂度(Short-Time Objective Intelligibility,STOI)与平均主观意见分(Mean Opinion Score,MOS)分别提高了5.41%,5.77%,9.68%。   相似文献   

7.
针对非平行语料非联合训练条件下的语音转换,提出一种基于倒谱本征空间结构化高斯混合模型的方法。提取说话人语音倒谱特征参数之后,根据其散布矩阵计算本征向量构造倒谱本征空间并训练结构化高斯混合模型SGMM-ES(Structured Gaussian Mixture Model in Eigen Space)。源和目标说话人各自独立训练的SGMM-ES根据全局声学结构AUS(Acoustical Universal Structure)原理进行匹配对准,最终得到基于倒谱本征空间的短时谱转换函数。实验结果表明,转换语音的目标说话人平均识别率达到95.25%,平均谱失真度为1.25,相对基于原始倒谱特征空间的SGMM方法分别提高了0.8%和7.3%,而ABX和MOS测评表明转换性能非常接近于传统平行语料方法。这一结果说明采用倒谱本征空间结构化高斯混合模型进行非平行语料条件下的语音转换是有效的。  相似文献   

8.
为了提高汉语语音的谎言检测准确率,提出了一种对信号倒谱参数进行稀疏分解的方法。首先,采用小波包滤波器组对语音信号进行多频带划分,求得子频带对数能量并进行离散余弦变换以提取小波包频带倒谱系数,结合梅尔频率谱系数得到倒谱参数;其次,依据K-奇异值分解方法分别利用说谎和非说谎两种状态下的语音倒谱参数集训练得到过完备混合字典,在此字典上根据正交匹配追踪算法对参数集进行稀疏编码提取稀疏特征;最终进行多种分类模型下的识别实验·实验结果表明,稀疏分解方法相比传统参数降维方法具有更好的优化性能,本文推荐的稀疏谱特征最佳识别率达到78.34%,优于其他特征参数,显著提高了谎言检测识别准确率。   相似文献   

9.
基于发音特征的汉语普通话语音声学建模   总被引:3,自引:0,他引:3  
将表征汉语普通话语音特点的发音特征引入汉语普通话语音识别的声学建模中,根据普通话发音特点,确定了用于区别普通话元音、辅音以及声调信息的9种发音特征,并以此为目标值训练神经网络得到语音信号属于各类发音特征的后验概率,将此概率作为语音识别的输入特征建立声学模型。在汉语普通话非特定人大词表自然口语对话识别系统中进行了实验验证,并与基于频谱特征的声学模型进行了比较,在相同解码速度下,由此方法建立的声学模型汉字错误率相对下降6.8%;将发音特征和频谱特征进行了融合实验,融合以后的识别系统相对基于频谱特征系统的汉字错误率相对下降10.1%。上述结果表明,基于发音特征的声学模型更加有效的实现了对语音特性的表征,通过利用发音特征和频谱特征的互补性,能够进一步实现对语音识别性能的提高。   相似文献   

10.
周璐璐  邓江洪 《应用声学》2014,22(10):3267-32693273
针对智能机器人在非特定人语音识别中识别率偏低的问题,提出了一种双门限的端点检测算法,精确地检测出了语音端点,对分形维数和Mel频率倒谱系数(MFCC)进行结合,同时基于隐马尔可夫(HMM)模型,提出了智能机器人命令识别系统;在实验室环境下,利用Cool Edit软件录制了5男5女的语音,采样率为8 kHz,精度为16位,内容为5个命令词,每个词均被采集6次,将每人的前3次发音作为模板语音,后3次发音作为测试语音,实验结果表明,系统识别率可以达到85%以上,MFCC与分形维数混合的语音特征参数的算法提高了系统识别率,优化了系统性能;该方法用于非特定人语音智能识别是可行的、有效的。  相似文献   

11.
Possibilities to eliminate the reverberation from a speech signal are investigated by applying the method based on the determination of the parameters of the reverberation frequency response from the cepstrum of the reverberation-distorted signal. The delays of reverberating signals and, for the case of a weak reverberation, their amplitudes are determined from the cepstrum of the signal with reverberation. For the cases of medium and strong reverberation, the levels of reverberating signals are refined by adjusting a certain factor. The criterion used for the adjustment of the factor is based on the shape of the speech signal amplitude distribution. By numerical modeling, it is demonstrated that the proposed method can reduce the reverberation level by 30 dB.  相似文献   

12.
A new methodology of voice conversion in cepstrum eigenspace based on structured Gaussian mixture model is proposed for non-parallel corpora without joint training.For each speaker,the cepstrum features of speech are extracted,and mapped to the eigenspace which is formed by eigenvectors of its scatter matrix,thereby the Structured Gaussian Mixture Model in the EigenSpace(SGMM-ES)is trained.The source and target speaker's SGMM-ES are matched based on Acoustic Universal Structure(AUS)principle to achieve spectrum transform function.Experimental results show the speaker identification rate of conversion speech achieves95.25%,and the value of average cepstrum distortion is 1.25 which is 0.8%and 7.3%higher than the performance of SGMM method respectively.ABX and MOS evaluations indicate the conversion performance is quite close to the traditional method under the parallel corpora condition.The results show the eigenspace based structured Gaussian mixture model for voice conversion under the non-parallel corpora is effective.  相似文献   

13.
The cepstrum and complex demodulation for both wrapped and unwrapped phase outputs are examined as to their performance in the presence of amplitude distortion and dispersion in a channel. With amplitude distortion, complex demodulation is a more powerful processor than cepstrum unless zeros occur in the amplitude spectrum of the distortion. Such singularities disrupt the unwrapped phase output completely and, unless removed, limit the useful region of the wrapped phase output. With phase distortion or dispersion, both the cepstrum and complex demodulation (wrapped phase output) yield biased time delay estimates. A successful phase unwrapping process in complex demodulation enables the correct estimate of the time delay in the presence of dispersion. In addition, the dispersion itself is extracted.  相似文献   

14.
胡航烨  王蔚 《应用声学》2023,42(1):76-83
情感语声合成技术对于人机交互具有重要的意义。面对儿童情感语声合成所需汉语语声数据资源缺乏以及模型训练时长较长等问题,该文提出利用迁移学习实现汉语儿童情感语声合成的方法。首先基于汉语语声数据库训练深度学习模型实现中文语声端到端合成模型,再使用高质量大样本的中文情感语料库完成情感语声合成模型,最后利用自行采样的小样本汉语儿童情感语料对模型进行迁移学习实现低资源的语声合成。客观实验结果中梅尔倒谱失真指标为4.91,主观听辨实验指标分别为3.61和4.17。通过实验对比表明,该文的方法在情感语声合成技术的应用上具有良好的性能表现,并且优于现有先进的低资源情感语声合成方法。  相似文献   

15.
赵毅  尹雪飞  陈克安 《应用声学》2010,29(6):416-424
共振峰频率是语音信号的一个重要参数。传统的基于线性预测的共振峰检测算法由于受到计算量的限制,很难实现实时处理。本文提出一种基于倒谱变换的共振峰频率检测算法,采用后置处理,比较声道冲击响应对数幅频特性的二次导数和相频特性一次导数检测出的结果,删除伪峰数值和甄别合并共振峰,提高检测精度。仿真结果证明,该算法计算效率高,低信噪比下仍能保持较好的检测性能。  相似文献   

16.
17.
提出在参数的提取过程中用不同的感知规整因子对不同人的参数归一化,从而实现在非特定人语音识别中对不同人的归一化处理。感知规整因子是基于声门上和声门下之间耦合作用产生声门下共鸣频率来估算的,与采用声道第三共振峰作为基准频率的方法比较,它能较多的滤除语义信息的影响,更好地体现说话人的个性特征。本文提取抗噪性能优于Mel倒谱参数的感知最小方差无失真参数作为识别特征,语音模型用经典的隐马尔可夫模型(HMM)。实验证明,本文方法与传统的语音识别参数和用声道第三共振峰进行谱规整的方法相比,在干净语音中单词错误识别率分别下降了4%和3%,在噪声环境下分别下降了9%和5%,有效地改善了非特定人语音识别系统的性能。   相似文献   

18.
A voiced speech signal can be expressed as a sum of sinusoidal components of which instantaneous frequency and amplitude continuously vary with time. Determining these parameters from the input, the time-varying characteristics are crucial error sources for the algorithms, which assume their stationarity within a local analysis segment. To overcome this problem, a new method is proposed, local vector transform (LVT), which can determine instantaneous frequency and amplitude for nonstationary sinusoids. The method does not assume the local stationarity. The effectiveness of LVT was examined in parameter determination for synthesized and naturally uttered speech signals. The instantaneous frequency for the first harmonic component was determined with an accuracy almost equal to that of the time-corrected instantaneous frequency method and higher accuracy than that of spectral peak-picking, autocorrelation, and cepstrum. The instantaneous amplitude was also determined accurately by LVT while considerable errors were left in the other algorithms. The signal reconstructed from the determined parameters by LVT agreed well with the corresponding component of voiced speech. These results suggest that the method is effective for analyzing time-varying voiced speech signals.  相似文献   

19.
We investigated speaking fundamental frequency and periodicity of voicing during conversational speech in a 105-year-old woman. Analyses revealed higher mean speaking fundamental frequency compared to previously published data obtained from elderly women. In the absence of normative data, the results of cepstrum analyses performed on vowels produced during connected speech revealed less periodicity for the 105-year-old woman's voice than for a 35-year-old woman's voice. The main finding of this study indicates that previously reported group trends regarding aging effects on mean speaking fundamental frequency of the female voice cannot simply be attributed to all elderly individuals. These results stress the importance, for clinical and research purposes, of recognizing the existence of considerable intra- as well as intersubject variability in the effects of aging on the voice.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号