首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 421 毫秒
1.
肖寒春  郭俊峰  张丽 《应用声学》2018,37(6):909-915
梅尔倒谱系数特征提取技术依据人耳的感知特性将声信号从线性频域转换到梅尔域,在语音识别中得到广泛应用。该文将梅尔倒谱系数技术用于小型低空飞行器的声信号特征提取中,并针对螺旋桨驱动类的小型低空飞行器具有稳定的强谐波特性,对梅尔倒谱系数特征提取中使用的梅尔滤波器进行改进,通过对此类谐波处的线性频谱与梅尔谱转换曲线的斜率进行投影替换,提高滤波器对该谐波处信号的感知敏感度。仿真结果表明,使用改进的梅尔倒谱系数特征提取方法对小型低空飞行器进行特征提取时,能够得到更低的等误识率,并且在低信噪比环境中,改进的梅尔倒谱系数特征提取方法具有更好的抗噪能力。  相似文献   

2.
采用L1/2稀疏约束的梅尔倒谱系数语音重建方法   总被引:1,自引:0,他引:1       下载免费PDF全文
周健  刘荣敏  窦云峰  路成  陶亮 《声学学报》2018,43(6):991-999
提出了一种利用L1/2稀疏约束从梅尔倒谱系数重建语音时域信号方法。从梅尔倒谱系数估计语音幅度谱是一个欠定问题,现有的方法均采用幅度谱最小均方误差估计或采用L1正则化进行幅度谱的稀疏约束。相比于L1正则化模型,L1/2的稀疏约束特性更强,为此,本文在从梅尔倒谱系数估计语音幅度谱时引入L1/2正则化约束,并利用求解的稀疏幅度谱估计相位谱,最后利用估计的频谱重建时域语音信号。实验结果表明,与幅度谱最小均方误差法相比,本文算法所估计出的语音信号具有更高的语音质量;在噪声环境下进行语音重建实验,与L1正则化幅度谱估计方法相比,本文算法重建的语音质量更好,表现出更好抗噪性。   相似文献   

3.
基于神经网络的语音谱失真测度研究   总被引:2,自引:1,他引:1  
提出了基于神经网络的语音谱失真测度概念。利用前向神经网络,包括多层感知器和径向基函数网络,对多维非线性函数的逼近原理,使得谱失真测度函数具备了表现人耳听觉系统的主观感知行为的能力。结合语音质量客观评价应用,我们以在大量的失真条件下得到的主观评价结果作为期望值对该网络进行训练。统计相关分析表明,基于神经网络谱失真测度的客观评价方法的主客观评价的相关性,较之传统欧氏距离以及加权欧氏距离都有了显著的提高,并具有更高的鲁棒性.该方法还具有技术独立性.  相似文献   

4.
一种基于听觉特性的语音失真测度方法   总被引:3,自引:0,他引:3  
提出了一种基于听觉特性的语音失真测度方法──感知谱失真 PSD(Perceptual Spectrum  Distortion)测度,该测度方法通过模拟人的听觉特性把语音短时频谱转变为符合听觉特性的感知频谱,再以感知谱为基础来度量语音失真程度。经过对不同质量的语音进行仿真实验以及与Itakura测度方法作对比实验,结果表明PSD测度是一种与语音质量主观评价一致性较好的语音失真测度方法。  相似文献   

5.
惠琳  俞一彪 《声学学报》2017,42(6):762-768
提出一种短时频谱通用背景模型群与韵律参数相结合进行年龄语音转换的方法。谱参数转换方面,同一年龄段各说话者提取语音短时谱系数并建立高斯混合模型,然后依据语音特征相似性对说话者进行聚类,每一类训练一个通用背景模型,最终得到通用背景模型群和一组短时频谱转换函数。谱参数转换之后再对共振峰进一步微调。韵律参数转换方面,基频和语速分别建立单高斯和平均时长率模型来推导转换函数。实验结果显示,提出的方法在ABX和MOS等评价指标上比传统的双线性法有明显的优势,相对单一通用背景模型法的对数似然度变化率提高了4%。这一结果表明提出的方法能够使转换语音具有良好目标倾向性的同时有较好的语音质量,性能较传统方法有明显提升。   相似文献   

6.
利用深度卷积神经网络将耳语转换为正常语音   总被引:4,自引:1,他引:3       下载免费PDF全文
耳语是一种特殊发音方式,将耳语转换为正常语音是提升耳语质量和可懂度的关键方法。为了充分利用语音的频域和时域相关性实现耳语转换,提出了使用深度卷积神经网络(Deep Convolutional Neural Networks,DCNN)将耳语转换为正常语音。它的卷积层用来提取连续帧语音谱包络之间的频域与时域的相关特征,而全连接层用来拟合耳语在卷积层提取的特征和对应正常语音之间的映射关系。实验结果表明与深度神经网络(Deep Neural Networks,DNN)模型相比,DCNN模型获得的转换后语音的梅尔倒谱失真度(Cepstral Distance,CD)降低了4.64%,而语音质量感知评价(Perceptual Evaluation of Speech Quality,PESQ)、短时客观可懂度(Short-Time Objective Intelligibility,STOI)与平均主观意见分(Mean Opinion Score,MOS)分别提高了5.41%,5.77%,9.68%。   相似文献   

7.
语音质量的客观评价可以代替昂贵的人工评分,但是目前客观指标的计算通常需要纯净的参考语音,这在许多实际声学系统中很难获得。为此提出了一种融合辅助目标学习和卷积循环网络(CRN)的非侵入式语音质量评价算法。为降低算法的复杂度,算法采用基于仿人耳听觉特性滤波器的Bark频率倒谱系数(BFCCs)作为CRN的输入。算法首先构建一个卷积神经网络(CNN)从BFCCs中提取帧级特征。然后,构建双向的长短记忆网络,在帧级特征中建模长期的时间依赖性和序列特征。最后,利用自注意力机制自适应地从帧级特征中筛选出有用信息,将其整合至话语层面的特征中,并将这些话语级特征映射为客观得分。为改善质量评测的有效性,算法采用多任务训练策略,引入语音激活检测(VAD)作为辅助学习目标。基于开源数据库的实验显示,与其他非侵入式算法相比,提出的算法和平均主观意见分(MOS)具有更好的相关性。而且,算法参数规模较小且对ITU-T P.808发布的带有主观MOS的失真语音数据库具有良好的泛化能力,接近语音质量感知评估(PESQ)指标的精度。   相似文献   

8.
提出了一种既符合人耳听觉特性又具有良好抗噪性的语音特征分析方法。首先将单边自相关函数序列进行时间方向的平滑处理,提高单边自相关函数的抗噪性,然后用平滑后的单边自相关函数序列代替原信号进行频率规整的LPC分析,最后经倒谱变换得到该特征参数。数字语音识别实验证明:利用该特征参数的语音识别系统的识别性能优于MEL倒谱系数、LPC倒谱系数等传统的语音特征参数。  相似文献   

9.
提出了一种采用扩展型双线性变换将耳语音转换为正常语音的方法。根据耳语音在不同频段的共振峰偏移程度不同,将耳语音的频谱进行分段处理,在此基础上建立耳语音转换为正常语音的转换函数。由于耳语音在各频段相对于正常语音非线性偏移,在双线性变换函数中引入扩展因子,使其对频谱的非线性偏移与对共振峰带宽的压缩更加符合耳语音转换为正常语音的实际转换需求,有效减小了转换语音与正常语音的谱失真距离。实验结果表明,本文的转换语音在音质和可懂度上均得到了有效提高。   相似文献   

10.
语音识别中信道和噪音的联合补偿   总被引:8,自引:3,他引:5  
赵蕤  王作英 《声学学报》2006,31(5):466-470
频谱和倒谱的联合调整方法,用于对语音识别中信道差异和背景噪音的存在进行联合补偿。该方法根据干净语音的最大似然准则在频域和倒谱域分别对噪音和信道进行补偿,避免了对噪音和信道影响模型进行简化所带来的误差影响,且实现时间复杂度较低。在信噪比由10dB到20dB的含有信道和加性噪音的汉语数字串识别实验中,该方法使平均音节错误率相对下降了50.44%。实验表明频谱和倒谱的联合调整方法可以快速的补偿信道差异和背景噪音。  相似文献   

11.
为了提高汉语语音的谎言检测准确率,提出了一种对信号倒谱参数进行稀疏分解的方法。首先,采用小波包滤波器组对语音信号进行多频带划分,求得子频带对数能量并进行离散余弦变换以提取小波包频带倒谱系数,结合梅尔频率谱系数得到倒谱参数;其次,依据K-奇异值分解方法分别利用说谎和非说谎两种状态下的语音倒谱参数集训练得到过完备混合字典,在此字典上根据正交匹配追踪算法对参数集进行稀疏编码提取稀疏特征;最终进行多种分类模型下的识别实验·实验结果表明,稀疏分解方法相比传统参数降维方法具有更好的优化性能,本文推荐的稀疏谱特征最佳识别率达到78.34%,优于其他特征参数,显著提高了谎言检测识别准确率。   相似文献   

12.
研究最小方差无失真响应感知倒谱系数在说话人识别中的应用。提取最小方差无失真响应感知倒谱系数,对其进行高斯混合模型建模并采用联合因子分析的方法来拟合高斯混合模型中的说话人和信道差异,在美国国家标准技术研究院2008年说话人识别评测核心测试集上分别对最小方差无失真响应感知倒谱系数和传统的Mel频率倒谱系数进行测试。结果显示,两种不同特征的系统性能相当,采用线性融合方法后,在不同测试集上的等错误率相对下降了7.6%~30.5%,最小检测错误代价相对下降了3.2%~21.2%。实验表明,最小方差无失真响应感知倒谱系数能有效应用于说话人识别中,且与传统的Mel频率倒谱系数存在一定程度的互补性。   相似文献   

13.
基于修正Mel域掩蔽模型和无语音概率的耳语音增强   总被引:1,自引:0,他引:1  
提出了一种基于修正Mel域听觉掩蔽模型和无语音概率的耳语音增强方法。该方法根据耳语音的发音特点对Mel频率进行修正,对每一帧耳语音信号进行Mel域频带滤波,同时通过无语音概率(SAP)动态地确定每个频带的听觉掩蔽阈值,对不同的听觉掩蔽阈值自适应地调整谱减系数来进行耳语音增强。对增强后的耳语音进行客观和主观测试,结果表明,该方法与其它谱减法相比,能将残留噪声和背景噪声控制在人耳掩蔽阈值下,取得更小的语音失真,主观听觉也得到了很大的改善。   相似文献   

14.
张少康  田德艳 《应用声学》2019,38(2):267-272
传统水下声目标识别分类方法具有较强的人机交互特性,无法满足未来水下无人平台智能识别分类水声目标的需求。针对这一问题,提出了一种基于梅尔倒谱系数(MFCC)的水下声目标智能识别分类方法,该方法通过提取水下声目标梅尔倒谱系数特征,采用长短时记忆网络(LSTM)构建了智能识别分类模型。使用实际水声信号对该方法进行了验证,结果表明,基于梅尔倒谱系数的水下声目标智能识别分类方法能够在不依赖人工提取特征的情况下,对目标噪声进行识别分类,具备智能化识别分类能力。  相似文献   

15.
王玮蔚  张秀再 《应用声学》2019,38(2):237-244
针对传统语音情感特征参数在进行情感分类时性能不佳的问题,该文提出了一种基于变分模态分解的语音情感识别方法。情感语音信号首先由变分模态分解提取固有模态函数,然后对所选主导固有模态函数进行重新聚合,再提取梅尔倒谱系数和各固有模态函数的希尔伯特边际谱。为了验证该文提出的特征性能,选用两种语音数据库(EMODB、RAVDESS)进行实验,按该文方法提取特征后使用极限学习机进行语音情感分类识别。实验结果表明:相比基于经验模态分解和集合经验模态分解的语音情感特征,该文提出的特征有更好的识别性能,验证了该方法的实用性。  相似文献   

16.
针对非平行语料非联合训练条件下的语音转换,提出一种基于倒谱本征空间结构化高斯混合模型的方法。提取说话人语音倒谱特征参数之后,根据其散布矩阵计算本征向量构造倒谱本征空间并训练结构化高斯混合模型SGMM-ES(Structured Gaussian Mixture Model in Eigen Space)。源和目标说话人各自独立训练的SGMM-ES根据全局声学结构AUS(Acoustical Universal Structure)原理进行匹配对准,最终得到基于倒谱本征空间的短时谱转换函数。实验结果表明,转换语音的目标说话人平均识别率达到95.25%,平均谱失真度为1.25,相对基于原始倒谱特征空间的SGMM方法分别提高了0.8%和7.3%,而ABX和MOS测评表明转换性能非常接近于传统平行语料方法。这一结果说明采用倒谱本征空间结构化高斯混合模型进行非平行语料条件下的语音转换是有效的。  相似文献   

17.
针对非平行语料非联合训练条件下的语音转换,提出一种基于倒谱本征空间结构化高斯混合模型的方法。提取说话人语音倒谱特征参数之后,根据其散布矩阵计算本征向量构造倒谱本征空间并训练结构化高斯混合模型SGMM-ES(Structured Gaussian Mixture Model in Eigen Space)。源和目标说话人各自独立训练的SGMM-ES根据全局声学结构AUS(Acoustical Universal Structure)原理进行匹配对准,最终得到基于倒谱本征空间的短时谱转换函数。实验结果表明,转换语音的目标说话人平均识别率达到95.25%,平均谱失真度为1.25,相对基于原始倒谱特征空间的SGMM方法分别提高了0.8%和7.3%,而ABX和MOS测评表明转换性能非常接近于传统平行语料方法。这一结果说明采用倒谱本征空间结构化高斯混合模型进行非平行语料条件下的语音转换是有效的。   相似文献   

18.
王栋  司纪锋 《应用声学》2018,37(2):252-259
针对小数据量的海洋动物声信号混合识别,将声信号同态分析过程中的线性频率转换为Mel频率,得到模拟人耳听觉特性的Mel频率倒谱系数作为声信号的特征。按照声信号所属的物种建立特征模板,使用动态时间规整算法对待识别特征进行分类识别,并对特征库和识别算法进行优化。分别提取了6种鱼类、3种虾类、12种鲸类的Mel频率倒谱系数,为每个物种建立特征模板。分3次对3种、5种、6种鱼类进行识别,分别获得了100%、96.25%、94.68%的识别率。对6种鱼类、3种虾类、12种鲸类共21个物种进行混合识别,总识别率由87.56%提升至优化后的88.96%。实验结果表明,基于Mel频率倒谱系数和动态时间规整算法的海洋动物声信号混合识别能够在小数据量时获得较高的识别率,优化后的特征库和识别算法能够提升识别率。  相似文献   

19.
基于掩蔽特性的噪声环境下语音识别新特征   总被引:4,自引:1,他引:3  
语音识别系统的识别率在噪声环境中下降很大。本文根据人耳的听觉特性,提出一种基于人耳听觉掩蔽特性的抗噪声特征提取方法。该方法先求取噪声语音的掩蔽特性,在此基础上再计算Mel倒谱系数用于语音识别。通过对TIMIT数据包的 0~9十个英语数字在 NoiseX92的各种噪声下进行了识别试验。其中在信噪比 0dB条件下,在 3种噪声条件下识别率平均提高 152%,实验表明新方法对于各种噪声环境下的识别率有显著提高。  相似文献   

20.
针对小样本情况下,使用混合概率线性回归(Mixture of Probabilistic Linear Regressions,MPLR)模型进行语音转换容易出现过拟合的问题,提出利用动态核特征替代源说话人语音谱特征后,对转换函数参数进行贝叶斯最大后验估计(Maximum a Posterior,MAP)求解的方法。首先采用核函数将源说话人的语音谱特征转化为动态核特征,再引入转换函数参数的先验知识,最后根据对误差的不同假设,提出两种求解转换函数参数的方法。客观评测实验结果表明,所提出方法的平均谱失真值相对于MPLR模型转换方法平均降低了4.25%。主观评测实验结果表明,所提出的方法在转换语音的相似度和自然度方面的得分均高于MPLR方法。实验结果证明,所提出方法有效地改善了语音转换中的过拟合问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号