共查询到20条相似文献,搜索用时 62 毫秒
1.
提出了一种融合梅尔谱增强与特征解耦的噪声鲁棒语音转换模型,即MENR-VC模型。该模型采用3个编码器提取语音内容、基频和说话人身份矢量特征,并引入互信息作为相关性度量指标,通过最小化互信息进行矢量特征解耦,实现对说话人身份的转换。为了改善含噪语音的频谱质量,模型使用深度复数循环卷积网络对含噪梅尔谱进行增强,并将其作为说话人编码器的输入;同时,在训练过程中,引入梅尔谱增强损失函数对模型整体损失函数进行了改进。仿真实验结果表明,与同类最优的噪声鲁棒语音转换方法相比,所提模型得到的转换语音在语音自然度和说话人相似度的平均意见得分方面,分别提高了0.12和0.07。解决了语音转换模型在使用含噪语音进行训练时,会导致深度神经网络训练过程难以收敛,转换语音质量大幅下降的问题。 相似文献
2.
基于最大似然多项式回归的鲁棒语音识别 总被引:2,自引:0,他引:2
本文针对最大似然线性回归算法线性假设的缺点,将多项式回归方法用于模型自适应,构建了基于最大似然多项式回归的非线性模型自适应算法。该算法在对数谱域用多项式回归方法,逼近每个Mel子带上识别环境模型均值与训练环境模型均值之间的非线性关系。多项式系数通过EM算法和最大似然准则从识别环境下的少量自适应数据中估计。实验结果表明,二阶多项式就可以较好地逼近模型均值的非线性环境变换关系。在噪声补偿和说话人自适应实验中,最大似然多项式回归算法的误识率都明显低于最大似然线性回归算法。本文算法较好地克服了线性模型自适应算法线性假设的缺陷,可同时减小噪声,和说话人的改变或其它因素对语音识别系统的影响,尤其适合说话人和噪声的联合自适应。 相似文献
3.
基于互信息匹配模型的说话人识别 总被引:4,自引:0,他引:4
依据互信息理论提出的互信息匹配识别模型MIM(Mutual Information Matching),能够有效地综合处理语音信号的统计分布特征与时变分布特征,并具有较强的鲁棒性。介绍了运用互信息进行说话人模式匹配的原理,探讨了基于文本的说话人识别中MIM模型的应用,通过说话人辨别实验对MIM模型的性能进行了实验分析,并与其它识别模型DTW和GMM进行了比较。对18名男性和12名女性组成的30名说话人进行的识别实验表明, MIM模型的说话人识别性能较好,在采用LPCC特征参数的情况下,平均错误识别率为1.33%。 相似文献
4.
研究最小方差无失真响应感知倒谱系数在说话人识别中的应用。提取最小方差无失真响应感知倒谱系数,对其进行高斯混合模型建模并采用联合因子分析的方法来拟合高斯混合模型中的说话人和信道差异,在美国国家标准技术研究院2008年说话人识别评测核心测试集上分别对最小方差无失真响应感知倒谱系数和传统的Mel频率倒谱系数进行测试。结果显示,两种不同特征的系统性能相当,采用线性融合方法后,在不同测试集上的等错误率相对下降了7.6%~30.5%,最小检测错误代价相对下降了3.2%~21.2%。实验表明,最小方差无失真响应感知倒谱系数能有效应用于说话人识别中,且与传统的Mel频率倒谱系数存在一定程度的互补性。 相似文献
5.
采用归一化补偿变换的与文本无关的说话人识别 总被引:10,自引:0,他引:10
在噪声环境下,特别是当说话人识别最常用的模型——高斯混合模型(GMM)失配的情况下,需要对其输出帧似然概率的统计特性进行补偿。文章根据说话人识别的声学特性,提出了一种非线性变换方法——归一化补偿变换。理论分析和实验结果表明:与常用的最大似然(ML)变换相比,该变换能够提高系统识别率,最大可达3.7%,同时可降低误识率,最大可达45.1%。结果说明归一化补偿变换方法基本克服了在与文本无关说话人识别系统中,当说话人的个性特征不断变化、语音与噪声不能很好地分离或者降噪算法对语音有损伤、模型不能很好地匹配时,需要对模型输出的似然概率(得分)进行补偿的局限。这也说明对模型输出的似然概率进行处理是降低噪声和干扰的影响、提高说话人识别率的有效方法。 相似文献
6.
《声学学报:英文版》2015,(1)
针对非平行语料非联合训练条件下的语音转换,提出一种基于倒谱本征空间结构化高斯混合模型的方法。提取说话人语音倒谱特征参数之后,根据其散布矩阵计算本征向量构造倒谱本征空间并训练结构化高斯混合模型SGMM-ES(Structured Gaussian Mixture Model in Eigen Space)。源和目标说话人各自独立训练的SGMM-ES根据全局声学结构AUS(Acoustical Universal Structure)原理进行匹配对准,最终得到基于倒谱本征空间的短时谱转换函数。实验结果表明,转换语音的目标说话人平均识别率达到95.25%,平均谱失真度为1.25,相对基于原始倒谱特征空间的SGMM方法分别提高了0.8%和7.3%,而ABX和MOS测评表明转换性能非常接近于传统平行语料方法。这一结果说明采用倒谱本征空间结构化高斯混合模型进行非平行语料条件下的语音转换是有效的。 相似文献
7.
针对非平行语料非联合训练条件下的语音转换,提出一种基于倒谱本征空间结构化高斯混合模型的方法。提取说话人语音倒谱特征参数之后,根据其散布矩阵计算本征向量构造倒谱本征空间并训练结构化高斯混合模型SGMM-ES(Structured Gaussian Mixture Model in Eigen Space)。源和目标说话人各自独立训练的SGMM-ES根据全局声学结构AUS(Acoustical Universal Structure)原理进行匹配对准,最终得到基于倒谱本征空间的短时谱转换函数。实验结果表明,转换语音的目标说话人平均识别率达到95.25%,平均谱失真度为1.25,相对基于原始倒谱特征空间的SGMM方法分别提高了0.8%和7.3%,而ABX和MOS测评表明转换性能非常接近于传统平行语料方法。这一结果说明采用倒谱本征空间结构化高斯混合模型进行非平行语料条件下的语音转换是有效的。 相似文献
8.
为了提高汉语语音的谎言检测准确率,提出了一种对信号倒谱参数进行稀疏分解的方法。首先,采用小波包滤波器组对语音信号进行多频带划分,求得子频带对数能量并进行离散余弦变换以提取小波包频带倒谱系数,结合梅尔频率谱系数得到倒谱参数;其次,依据K-奇异值分解方法分别利用说谎和非说谎两种状态下的语音倒谱参数集训练得到过完备混合字典,在此字典上根据正交匹配追踪算法对参数集进行稀疏编码提取稀疏特征;最终进行多种分类模型下的识别实验·实验结果表明,稀疏分解方法相比传统参数降维方法具有更好的优化性能,本文推荐的稀疏谱特征最佳识别率达到78.34%,优于其他特征参数,显著提高了谎言检测识别准确率。 相似文献
9.
10.
11.
基于高斯混合模型的语音带宽扩展算法的研究 总被引:2,自引:0,他引:2
为了降低高带谱失真,研究了带宽扩展算法中特征参数与高带谱包络的互信息和高带谱失真之间的函数关系,并在此基础上提出了一种扩展高斯混合模型带宽扩展算法。首先,算法选择与高带谱包络互信息大的参数构成特征矢量,并根据高斯混合模型计算特征矢量与高带谱包络的联合概率密度。其次,采用Expectation-Maximization(EM)算法估计高斯分量模型参数并计算后验概率。最后,通过后验概率估计高带谱包络。实验结果表明,与传统的高斯混合模型带宽扩展算法相比,本文算法可降低0.3 dB的高带平均谱失真,将谱失真大于10dB的语音帧减少了50%以上。 相似文献
12.
窄带语音带宽扩展算法研究 总被引:1,自引:0,他引:1
为了降低谱失真,提出了一种基于隐马尔科夫模型的窄带语音带宽扩展算法。首先,算法选取与宽带谱包络互信息大的参数构成特征矢量,并利用隐马尔可夫状态和过去观察特征矢量的联合先验概率估计条件后验概率。其次,以条件后验概率为基础,算法结合贝叶斯条件参数估计法和最小均方差准则估计宽带谱包络。针对宽带激励信号估计,基于信号高频和低频的谐波相关性,提出了一种中频激励扩展算法。实验结果表明,与传统的基于隐马尔可夫模型的带宽扩展算法相比,本文算法可降低0.187 dB的平均谱失真,将谱失真大于10 dB的语音帧减少了34.3%。 相似文献
13.
矢量泰勒级数特征补偿的说话人识别 总被引:2,自引:0,他引:2
将矢量泰勒级数(Vector Taylor Series,VTS)特征补偿算法应用于说话人识别,给出了卷积噪声方差的近似闭式解,构建了联合快速估计卷积噪声和加性噪声均值和方差的框架。该算法可在无需失配环境先验信息的前提下,直接从失配语音中估计出卷积噪声和加性噪声的均值和方差,实现对环境失配的补偿。实验结果表明,在信道变化较大的无线信道下,卷积噪声方差的补偿最高可降低误识率3.24%.提升了系统的识别性能。在存在加性噪声的无线信道下,与基于线性失真模型的特征映射算法和倒谱均值减算法相比,本文算法可分别最大降低49.65%和68.06%的误识率,适合于信道变化较大的失配环境补偿。 相似文献
14.
提出了一种基于极大似然的噪声对数功率谱估计方法,采用高斯混合模型对每一个频带上的功率谱包络构建统计模型,将时序包络划分为语音和非语音类,它们分别对应于高斯混合模型的两个高斯分量,描述语音和非语音的统计分布,其中非语音高斯分量的均值即为噪声功率谱的最优估计.采用序贯学习的方法,在极大似然准则下逐帧更新模型参数,并逐帧给出噪声功率谱的最优估计值。此外,由于序贯更新过程中语音信号长时缺失,容易导致模型失稳,提出了一种在线的最小描述长度准则(MDL)来判断语音信号是否长时缺失,从而保证了模型的稳定性.实验表明,算法性能整体优于经典的MS和IMCRA算法。 相似文献
15.
16.
17.
传统的语音端点检测方法在低信噪比环境下可靠性会急剧下降。本文提出了两种特征处理方法:特征的似然度加权和基于散度的维数缩减,来提高噪声下端点检测的性能。通过加权增加动态特征在似然度计算中的比重,可以提高端点检测的噪声Robustness。缩减散度值较小的特征维,对检测精度只有很小的影响,但可以提高检测效率。似然度加权对维数缩减之后的特征同样有效。在Aurora2数据库上的实验结果显示,在干净数据训练的检测模型下,似然度加权可以显著提高噪声下的端点检测性能。对维数缩减后的特征进行似然度加权,获得了与原始特征似然度加权相当的检测性能。这说明本文提出的方法是有效的。 相似文献
18.
基于连续高斯混合密度HMM的汉语全音节语音识别研究 总被引:5,自引:0,他引:5
本文在大量语音分析实验的基础上,对HMM用于汉语全音节语音识别进行了较为深入的探讨,建立了一个连续高斯混合密度HMM的汉语全音节语音识别系统.该系统在训练算法上撇开了传统的Baum-Welch算法,代之以计算复杂度小、存储量小、迭代次数少且具有自动分割效应的分段K平均算法。对于HMM的模型单元的选择,单元的结构以及模型参数的选取,充分考虑了汉语语音的特点;并在语音特征上做了深入的实验分析工作,采用了符合人耳听觉特性的Mel-Scaled参数,用FFT倒谱代替了LPC倒谱,同时利用了语音的动态谱特征和能量特征。另外,本文还针对汉语声母的特点,独特地提出了变帧移分析策略。整个识别系统的首选正识率为91.1%. 相似文献
19.
提出了一种基于独立分量分析(ICA)的语音信号鲁棒特征提取算法,用以解决在卷积噪声环境下语音信号的训练与识别特征不匹配的问题。该算法通过短时傅里叶变换将带噪语音信号从时域转换到频域后,采用复值ICA方法从带噪语音的短时谱中分离出语音信号的短时谱,然后根据所得到的语音信号短时谱计算美尔倒谱系数(MFCC)及其一阶差分作为特征参数。在仿真与真实环境下汉语数字语音识别实验中,所提算法相比较传统的MFCC其识别正确率分别提升了34.8%和32.6%。实验结果表明基于ICA方法的语音特征在卷积噪声环境下具有良好的鲁棒性。 相似文献
20.
针对深度神经网络与隐马尔可夫模型(DNN-HMM)结合的声学模型在语音识别过程中建模能力有限等问题,提出了一种改进的DNN-HMM模型语音识别算法。首先根据深度置信网络(DBN)结合深度玻尔兹曼机(DBM),建立深度神经网络声学模型,然后提取梅尔频率倒谱系数(MFCC)和对数域的Mel滤波器组系数(Fbank)作为声学特征参数,通过TIMIT语音数据集进行实验。实验结果表明:结合了DBM的DNN-HMM模型相比DNN-HMM模型更具优势,其中,使用MFCC声学特征在词错误率与句错误率方面分别下降了1.26%和0.20%。此外,使用默认滤波器组的Fbank特征在词错误率与句错误率方面分别下降了0.48%和0.82%,并且适量增加滤波器组可以降低错误率。总之,研究取得句错误率与词错误率分别降低到21.06%和3.12%的好成绩。 相似文献