首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 281 毫秒
1.
汉语耳语音孤立字识别研究   总被引:6,自引:0,他引:6       下载免费PDF全文
杨莉莉  林玮  徐柏龄 《应用声学》2006,25(3):187-192
耳语音识别有着广泛的应用前景,是一个全新的课题.但是由于耳语音本身的特点,如声级低、没有基频等,给耳语音识别研究带来了困难.本文根据耳语音信号发音模型,结合耳语音的声学特性,建立了一个汉语耳语音孤立字识别系统.由于耳语音信噪比低,必须对其进行语音增强处理,同时在识别系统中应用声调信息提高了识别性能.实验结果说明了MFCC结合幅值包络可作为汉语耳语音自动识别的特征参数,在小字库内用HMM模型识别得出的识别率为90.4%.  相似文献   

2.
利用深度卷积神经网络将耳语转换为正常语音   总被引:1,自引:0,他引:1       下载免费PDF全文
耳语是一种特殊发音方式,将耳语转换为正常语音是提升耳语质量和可懂度的关键方法。为了充分利用语音的频域和时域相关性实现耳语转换,提出了使用深度卷积神经网络(Deep Convolutional Neural Networks,DCNN)将耳语转换为正常语音。它的卷积层用来提取连续帧语音谱包络之间的频域与时域的相关特征,而全连接层用来拟合耳语在卷积层提取的特征和对应正常语音之间的映射关系。实验结果表明与深度神经网络(Deep Neural Networks,DNN)模型相比,DCNN模型获得的转换后语音的梅尔倒谱失真度(Cepstral Distance,CD)降低了4.64%,而语音质量感知评价(Perceptual Evaluation of Speech Quality,PESQ)、短时客观可懂度(Short-Time Objective Intelligibility,STOI)与平均主观意见分(Mean Opinion Score,MOS)分别提高了5.41%,5.77%,9.68%。   相似文献   

3.
提出了一种采用扩展型双线性变换将耳语音转换为正常语音的方法。根据耳语音在不同频段的共振峰偏移程度不同,将耳语音的频谱进行分段处理,在此基础上建立耳语音转换为正常语音的转换函数。由于耳语音在各频段相对于正常语音非线性偏移,在双线性变换函数中引入扩展因子,使其对频谱的非线性偏移与对共振峰带宽的压缩更加符合耳语音转换为正常语音的实际转换需求,有效减小了转换语音与正常语音的谱失真距离。实验结果表明,本文的转换语音在音质和可懂度上均得到了有效提高。   相似文献   

4.
基于熵函数的耳语音声韵分割法   总被引:11,自引:3,他引:8  
耳语音声韵分割是耳语音识别和转换的前期工作。由于耳语发音不同于正常音,一般用于正常音的声韵分割法对耳语音不再适用。通过分析耳语音的发音及声学特点,利用宽带语谱图的声韵变化规律,提出了适用于耳语音的信息熵端点检测法,以及相对熵、音长和谱重心相结合的声韵分割法。并对两组信噪比为2-10 dB的380个汉语单音节耳语音进行声韵分割,女声的正确率为87.9%,男声的正确率为90.3%,高于频域法、聚类法和谱平坦度声韵分割法。实验表明,相对熵法可做为耳语音识别和转换的预处理,它改善了汉语耳语音转换为正常音的音质。  相似文献   

5.
提出了一种融合梅尔谱增强与特征解耦的噪声鲁棒语音转换模型,即MENR-VC模型。该模型采用3个编码器提取语音内容、基频和说话人身份矢量特征,并引入互信息作为相关性度量指标,通过最小化互信息进行矢量特征解耦,实现对说话人身份的转换。为了改善含噪语音的频谱质量,模型使用深度复数循环卷积网络对含噪梅尔谱进行增强,并将其作为说话人编码器的输入;同时,在训练过程中,引入梅尔谱增强损失函数对模型整体损失函数进行了改进。仿真实验结果表明,与同类最优的噪声鲁棒语音转换方法相比,所提模型得到的转换语音在语音自然度和说话人相似度的平均意见得分方面,分别提高了0.12和0.07。解决了语音转换模型在使用含噪语音进行训练时,会导致深度神经网络训练过程难以收敛,转换语音质量大幅下降的问题。  相似文献   

6.
提出了一种采用感知语谱结构边界参数(PSSB)的语音端点检测算法,用于在低信噪比环境下的语音信号预处理。在对含噪语音进行基于听觉感知特性的语音增强之后,针对语音信号的连续分布特性与残留噪声的随机分布特性之间的不同点,对增强后语音的时-频语谱进行二维增强,从而进一步突出连续分布的纯净语音的语谱结构。通过对增强后语音语谱结构的二维边界检测,提出PSSB参数,并用于端点检测。实验结果表明,在白噪声-10 dB到10 dB的各种信噪比环境下,采用PSSB参数的端点检测算法,相对于其它端点检测算法,更有效地检测出语音的端点。在-10 dB的极低信噪比下,提出的方法仍然有75.2%的正确率。采用PSSB参数的端点检测算法,更适合于低信噪比白噪声环境下的语音端点检测。   相似文献   

7.
戴明扬  徐柏龄 《应用声学》2001,20(6):6-12,44
本文基于人耳听觉模型提出了一种鲁棒性的话者特征参数提取方法。该种方法中,首先由Gamma tone听觉滤波器组和Meddis内耳毛细胞发放模型获得表征听觉神经活动特性的听觉相关图。由听觉神经脉冲发放的锁相特性和双声抑制特性,我们将听觉相关图每个频带中的幅值最大频率分量作为表征当前频带特性的特征参量,于是所有频带的特征参量便构成了表征当前语音段特性的特征矢量;我们采用DCT交换进一步消除各个特征参量之间的相关性,压缩特征矢量的维数。有效性试验表明,该种特征矢量基本上反映了输入语音的谱包络特性;抗噪声性能实验表明,在高斯白噪声和汽车噪声干扰下,这种特征参数比LPCC和MFCC有较小的相对失真;基于矢量量化的文本无关话者辨识表明,对于三种类型的噪声干扰该种特征参数在低信噪比下都获得了较好的识别结果。  相似文献   

8.
惠琳  俞一彪 《声学学报》2017,42(6):762-768
提出一种短时频谱通用背景模型群与韵律参数相结合进行年龄语音转换的方法。谱参数转换方面,同一年龄段各说话者提取语音短时谱系数并建立高斯混合模型,然后依据语音特征相似性对说话者进行聚类,每一类训练一个通用背景模型,最终得到通用背景模型群和一组短时频谱转换函数。谱参数转换之后再对共振峰进一步微调。韵律参数转换方面,基频和语速分别建立单高斯和平均时长率模型来推导转换函数。实验结果显示,提出的方法在ABX和MOS等评价指标上比传统的双线性法有明显的优势,相对单一通用背景模型法的对数似然度变化率提高了4%。这一结果表明提出的方法能够使转换语音具有良好目标倾向性的同时有较好的语音质量,性能较传统方法有明显提升。   相似文献   

9.
为了克服低信噪比输入下,语音增强造成语音清音中的弱分量损失,造成重构信号包络失真的问题。论文提出了一种新的语音增强方法。该方法根据语音感知模型,采用不完全小波包分解拟合语音临界频带,并对语音按子带能量进行清浊音区分处理,在阈值计算上,提出了一种清浊音分离,基于子带信号能量的小波包自适应阈值算法。通过仿真实验,客观评测和听音测试表明,该算法在低信噪比输入时较传统算法,能够更加有效地减少重构信号包络失真,在不损伤语音清晰度和自然度的前提下,使输出信噪比明显提高。将该算法与能量谱减法结合,进行二次增强能进一步提高降噪输出的语音质量。  相似文献   

10.
周健  郑文明  王青云  赵力 《声学学报》2014,39(4):501-508
提出两种基于非对称代价函数的耳语音增强算法,将语音增强过程中的放大失真和压缩失真区分对待。Modified ItakuraSaito (MIS)算法对放大失真给予更多的惩罚,而Kullback-Leibler (KL)算法则对压缩失真给予更多的惩罚。实验结果表明,在低于—6 dB的低信噪比情况中,经MIS算法增强后的耳语音的可懂度相比传统算法有显著提高;而KL算法则获得了同最小均方误差语音增强算法近似的可懂度提高效果,证实了耳语音中的放大失真和压缩失真对于耳语音可懂度的影响并不相同,低信噪比时较大的压缩失真有助于提高耳语音可懂度,而高信噪比时的压缩失真对耳语音可懂度影响较小。   相似文献   

11.
To reduce the spectral distortion,a Hidden Markov Model-based narrowband speech bandwidth extension algorithm is presented.Firstly,the parameters which have higher mutual information with wideband envelope were extracted to constitute the feature vector,and then a posterior probability was calculated via the joint probability of the partial observation feature vector sequence and the markov states.Secondly,based on the posterior probability,the wideband envelope was estimated using Bayesian parameter estimation method and minimum mean square error criteria.For estimation of wideband excitation signal,intermediate frequency extension algorithm is proposed based on the harmonic correlation between the low frequency and high frequency.The experimental results show that,compared with the traditional bandwidth extension algorithm based on Hidden Markov Model,the average spectral distortion is reduced by 0.187 dB and the number of speech frame with spectral distortion over10dB is decreased by 34.3%.  相似文献   

12.
结合幅度谱和功率谱字典的语音增强方法   总被引:1,自引:0,他引:1       下载免费PDF全文
从双路字典学习、噪声功率谱估计、语音幅度谱重构角度提出了一种改进的谱特征稀疏表示语音增强方法。在字典学习阶段,融合功率谱与幅度谱特征,采用区分性字典降低语音字典和噪声字典的相干性;在语音增强阶段,提出一种噪声功率谱估计方法对非平稳噪声进行跟踪估计;考虑到幅度谱和功率谱特征对不同噪声的适应程度不同,设计了语音重构权值表。对分别由幅度谱和功率谱恢复而来的两路信号进行自适应加权重构,结合相位补偿函数得到增强后的语音信号。实验结果表明,该方法在平稳、非平稳噪声环境下相比于单一谱特征的语音增强方法平均提高31.6%,改善了语音增强方法的性能。   相似文献   

13.
为了提高汉语语音的谎言检测准确率,提出了一种对信号倒谱参数进行稀疏分解的方法。首先,采用小波包滤波器组对语音信号进行多频带划分,求得子频带对数能量并进行离散余弦变换以提取小波包频带倒谱系数,结合梅尔频率谱系数得到倒谱参数;其次,依据K-奇异值分解方法分别利用说谎和非说谎两种状态下的语音倒谱参数集训练得到过完备混合字典,在此字典上根据正交匹配追踪算法对参数集进行稀疏编码提取稀疏特征;最终进行多种分类模型下的识别实验·实验结果表明,稀疏分解方法相比传统参数降维方法具有更好的优化性能,本文推荐的稀疏谱特征最佳识别率达到78.34%,优于其他特征参数,显著提高了谎言检测识别准确率。   相似文献   

14.
窄带语音带宽扩展算法研究   总被引:1,自引:0,他引:1  
张勇  刘轶 《声学学报》2014,39(6):764-773
为了降低谱失真,提出了一种基于隐马尔科夫模型的窄带语音带宽扩展算法。首先,算法选取与宽带谱包络互信息大的参数构成特征矢量,并利用隐马尔可夫状态和过去观察特征矢量的联合先验概率估计条件后验概率。其次,以条件后验概率为基础,算法结合贝叶斯条件参数估计法和最小均方差准则估计宽带谱包络。针对宽带激励信号估计,基于信号高频和低频的谐波相关性,提出了一种中频激励扩展算法。实验结果表明,与传统的基于隐马尔可夫模型的带宽扩展算法相比,本文算法可降低0.187 dB的平均谱失真,将谱失真大于10 dB的语音帧减少了34.3%。   相似文献   

15.
针对非平行语料非联合训练条件下的语音转换,提出一种基于倒谱本征空间结构化高斯混合模型的方法。提取说话人语音倒谱特征参数之后,根据其散布矩阵计算本征向量构造倒谱本征空间并训练结构化高斯混合模型SGMM-ES(Structured Gaussian Mixture Model in Eigen Space)。源和目标说话人各自独立训练的SGMM-ES根据全局声学结构AUS(Acoustical Universal Structure)原理进行匹配对准,最终得到基于倒谱本征空间的短时谱转换函数。实验结果表明,转换语音的目标说话人平均识别率达到95.25%,平均谱失真度为1.25,相对基于原始倒谱特征空间的SGMM方法分别提高了0.8%和7.3%,而ABX和MOS测评表明转换性能非常接近于传统平行语料方法。这一结果说明采用倒谱本征空间结构化高斯混合模型进行非平行语料条件下的语音转换是有效的。   相似文献   

16.
采用L1/2稀疏约束的梅尔倒谱系数语音重建方法   总被引:1,自引:0,他引:1       下载免费PDF全文
周健  刘荣敏  窦云峰  路成  陶亮 《声学学报》2018,43(6):991-999
提出了一种利用L1/2稀疏约束从梅尔倒谱系数重建语音时域信号方法。从梅尔倒谱系数估计语音幅度谱是一个欠定问题,现有的方法均采用幅度谱最小均方误差估计或采用L1正则化进行幅度谱的稀疏约束。相比于L1正则化模型,L1/2的稀疏约束特性更强,为此,本文在从梅尔倒谱系数估计语音幅度谱时引入L1/2正则化约束,并利用求解的稀疏幅度谱估计相位谱,最后利用估计的频谱重建时域语音信号。实验结果表明,与幅度谱最小均方误差法相比,本文算法所估计出的语音信号具有更高的语音质量;在噪声环境下进行语音重建实验,与L1正则化幅度谱估计方法相比,本文算法重建的语音质量更好,表现出更好抗噪性。   相似文献   

17.
提出一种稀疏降噪自编码结合高斯过程的近红外光谱药品鉴别方法。首先对近红外光谱数据进行小波变换以消除基线漂移,然后用稀疏降噪自编码(SDAE)网络提取光谱特征并降维表示,最后采用高斯过程(GP)进行二分类,其中GP选用光谱混合(SM)核函数作为协方差函数,记此分类网络为wSDAGSM。自编码网络具有很强的模型表示能力,高斯过程分类器在处理小样本数据时具有优势。wSDAGSM网络通过稀疏降噪自编码学习得到维数更低但更有价值的特征来表示输入数据,同时将具有很好表达力的光谱混合核作为高斯过程的协方差函数,有利于更准确的光谱数据分类。以琥乙红霉素及其他药品的近红外光谱为实验数据,将该方法与经过墨西哥帽小波变换的BP神经网络(wBP)、支持向量机(wSVM), SDAE结合Logistic二分类(wSDAL)、SDAE结合采用平方指数(SE)协方差核的GP二分类(wSDAGSE),以及未采用小波变换的SDAGSM网络等方法进行对比。实验结果表明,对光谱数据进行墨西哥帽小波变换预处理能有效提升SDAGSM网络的分类准确率和稳定性。wSDAGSM方法无论从分类准确率还是分类结果稳定性方面,都优于其他分类器。  相似文献   

18.
用激光光致发光光谱技术对发票真伪的快速鉴别进行了研究.首先采集80个真假发票样本的激光光致发光光谱数据,然后利用遗传算法对谱线重叠严重的566~669nm波段进行高斯拟合,提取特征参数,再结合BP神经网络技术建立鉴别模型.结果表明,从104个光谱数据提取13个特征参数,真假发票的拟合确定系数R2分别为0.997 89和...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号