共查询到18条相似文献,搜索用时 62 毫秒
1.
针对非平行语料非联合训练条件下的语音转换,提出一种基于倒谱本征空间结构化高斯混合模型的方法。提取说话人语音倒谱特征参数之后,根据其散布矩阵计算本征向量构造倒谱本征空间并训练结构化高斯混合模型SGMM-ES(Structured Gaussian Mixture Model in Eigen Space)。源和目标说话人各自独立训练的SGMM-ES根据全局声学结构AUS(Acoustical Universal Structure)原理进行匹配对准,最终得到基于倒谱本征空间的短时谱转换函数。实验结果表明,转换语音的目标说话人平均识别率达到95.25%,平均谱失真度为1.25,相对基于原始倒谱特征空间的SGMM方法分别提高了0.8%和7.3%,而ABX和MOS测评表明转换性能非常接近于传统平行语料方法。这一结果说明采用倒谱本征空间结构化高斯混合模型进行非平行语料条件下的语音转换是有效的。 相似文献
2.
基于高斯混合模型的语音带宽扩展算法的研究 总被引:2,自引:0,他引:2
为了降低高带谱失真,研究了带宽扩展算法中特征参数与高带谱包络的互信息和高带谱失真之间的函数关系,并在此基础上提出了一种扩展高斯混合模型带宽扩展算法。首先,算法选择与高带谱包络互信息大的参数构成特征矢量,并根据高斯混合模型计算特征矢量与高带谱包络的联合概率密度。其次,采用Expectation-Maximization(EM)算法估计高斯分量模型参数并计算后验概率。最后,通过后验概率估计高带谱包络。实验结果表明,与传统的高斯混合模型带宽扩展算法相比,本文算法可降低0.3 dB的高带平均谱失真,将谱失真大于10dB的语音帧减少了50%以上。 相似文献
3.
提出了一种基于极大似然的噪声对数功率谱估计方法,采用高斯混合模型对每一个频带上的功率谱包络构建统计模型,将时序包络划分为语音和非语音类,它们分别对应于高斯混合模型的两个高斯分量,描述语音和非语音的统计分布,其中非语音高斯分量的均值即为噪声功率谱的最优估计.采用序贯学习的方法,在极大似然准则下逐帧更新模型参数,并逐帧给出噪声功率谱的最优估计值。此外,由于序贯更新过程中语音信号长时缺失,容易导致模型失稳,提出了一种在线的最小描述长度准则(MDL)来判断语音信号是否长时缺失,从而保证了模型的稳定性.实验表明,算法性能整体优于经典的MS和IMCRA算法。 相似文献
4.
采用非线性模型替代线性回归模型响应本征正交分解(POD)基函数的系数,并采用自适应抽样方法确定快照集合,实现了基于自适应POD混合模型的跨音速叶片复杂流动分析及流场拟合.首先通过比较基于线性回归模型和非线性回归模型的基函数系数响应精度,验证非线性回归模型的收敛性和精确性;之后通过与静态抽样方法进行对比,研究分析自适应抽样技术的优越性;最后开展基于自适应POD混合模型的全三维跨音速流场分析及流动拟合.结果表明,采用自适应POD混合模型,不仅能够清晰地识别三维跨音速流场中的敏感流动特征,还能精确地拟合设计空间内任意状态的流场及出口气动参数. 相似文献
5.
6.
倒谱在混合模糊图像分析中的应用 总被引:2,自引:1,他引:2
降晰参数识别在模糊图像恢复过程中具有很重要的作用。在各种图像捕获系统中,有两种形式的图像模糊比较常见:一种是由光学系统散焦造成的散焦模糊;另一种是物体与照相机之间的相对运动造成的运动模糊。相对单个模糊模型的参数识别来说,混合了散焦和运动模糊的图像,其模糊参数的识别要复杂得多。许多识别方法一般都是用来分析某一特定的模糊模型的,而对两种模糊混合在一起的情况来说是很难区分的。提出了一种倒谱分析方法,在倒谱域同时对这两种模型参数进行识别。在分析过程中,仍需要利用这两种模糊模型在频域的特征,首先应用一些调整性的变换,然后再转换到倒谱域,以便更准确地评估模糊参数。 相似文献
7.
8.
高斯混合模型被广泛应用于统计压缩感知中信号先验概率分布的建模.利用高斯混合模型对图像的概率分布进行建模时,通常需要先对图像分块,再对图像块的概率分布进行建模.本文提出卷积高斯混合模型对整幅图像的概率分布进行建模.通过期望极大化算法求解极大边缘似然估计,实现模型中未知参数的估计.此外,考虑到在整幅图像上计算的复杂度较高,本文在卷积高斯混合模型和压缩测量模型中引入循环卷积,所有的训练和恢复过程都可以利用二维快速傅里叶变换实现快速运算.仿真实验表明,本文所提的MMLEconvGMM算法的恢复性能要优于传统的压缩感知算法的恢复性能. 相似文献
9.
10.
基于连续高斯混合密度HMM的汉语全音节语音识别研究 总被引:5,自引:0,他引:5
本文在大量语音分析实验的基础上,对HMM用于汉语全音节语音识别进行了较为深入的探讨,建立了一个连续高斯混合密度HMM的汉语全音节语音识别系统.该系统在训练算法上撇开了传统的Baum-Welch算法,代之以计算复杂度小、存储量小、迭代次数少且具有自动分割效应的分段K平均算法。对于HMM的模型单元的选择,单元的结构以及模型参数的选取,充分考虑了汉语语音的特点;并在语音特征上做了深入的实验分析工作,采用了符合人耳听觉特性的Mel-Scaled参数,用FFT倒谱代替了LPC倒谱,同时利用了语音的动态谱特征和能量特征。另外,本文还针对汉语声母的特点,独特地提出了变帧移分析策略。整个识别系统的首选正识率为91.1%. 相似文献
11.
《声学学报:英文版》2015,(3)
A new methodology of voice conversion in cepstrum eigenspace based on structured Gaussian mixture model is proposed for non-parallel corpora without joint training.For each speaker,the cepstrum features of speech are extracted,and mapped to the eigenspace which is formed by eigenvectors of its scatter matrix,thereby the Structured Gaussian Mixture Model in the EigenSpace(SGMM-ES)is trained.The source and target speaker's SGMM-ES are matched based on Acoustic Universal Structure(AUS)principle to achieve spectrum transform function.Experimental results show the speaker identification rate of conversion speech achieves95.25%,and the value of average cepstrum distortion is 1.25 which is 0.8%and 7.3%higher than the performance of SGMM method respectively.ABX and MOS evaluations indicate the conversion performance is quite close to the traditional method under the parallel corpora condition.The results show the eigenspace based structured Gaussian mixture model for voice conversion under the non-parallel corpora is effective. 相似文献
12.
13.
提出一种基于完全独立的说话人语音模型进行语音转换的方法。首先每个说话人采用各自的语料训练结构化高斯混合模型(Structured Gaussian Mixture Model,SGMM),然后根据源和目标说话人各自的模型采用全局声学结构(AcousticalUniversal Structure,AUS)进行匹配和高斯分布对准,最终得到相应的转换函数进行语音转换。ABX和MOS实验表明可以得到与传统的平行语料联合训练方法接近的转换性能,并且转换语音的目标说话人识别正确率达到94.5%。实验结果充分说明了本文提出的方法不仅具有较好的转换性能,而且具有较小的训练量和很好的系统扩展性。 相似文献
14.
To decrease the spectral distortion of highband envelope, the function of spectral distortion and mutual information between feature vector and highband envelope was studied, and an extended Gaussian Mixture Model (GMM) bandwidth extension algorithm was proposed based on the research. The feature parameters which have larger mutual information with highband envelope were selected to constitute the feature vector, and the GMM was adopted to compute the joint probability density of the feature vector and highband envelope. Then the highband envelope was estimated via the posterior probabilities computed from the model parameters estimated by Expectation-Maximization (EM) algorithm. The experimental results show that the spectral distortion is lower than the algorithm, such as the traditional algorithm based on GMM, by 0.3 dB and the number of frames with spectral distortion over 10 dB sharply reduced over 50%. 相似文献
15.
16.
17.
Community detection becomes a significant tool for the complex network analysis. The study of the community detection algorithms has received an enormous amount of attention. It is still an open question whether a highly accurate and efficient algorithm is found in most data sets. We propose the Dirichlet Processing Gaussian Mixture Model with Spectral Clustering algorithm for detecting the community structures. The combination of traditional spectral algorithm and new non-parametric Bayesian model provides high accuracy and quality. We compare the proposed algorithm with other existing community detecting algorithms using different real-world data sets and computer-generated synthetic data sets. We show that the proposed algorithm results in high modularity, and better accuracy in a wide range of networks. We find that the proposed algorithm works best for the large size of the data sets. 相似文献
18.
《声学学报:英文版》2015,(3)
针对小样本情况下,使用混合概率线性回归(Mixture of Probabilistic Linear Regressions,MPLR)模型进行语音转换容易出现过拟合的问题,提出利用动态核特征替代源说话人语音谱特征后,对转换函数参数进行贝叶斯最大后验估计(Maximum a Posterior,MAP)求解的方法。首先采用核函数将源说话人的语音谱特征转化为动态核特征,再引入转换函数参数的先验知识,最后根据对误差的不同假设,提出两种求解转换函数参数的方法。客观评测实验结果表明,所提出方法的平均谱失真值相对于MPLR模型转换方法平均降低了4.25%。主观评测实验结果表明,所提出的方法在转换语音的相似度和自然度方面的得分均高于MPLR方法。实验结果证明,所提出方法有效地改善了语音转换中的过拟合问题。 相似文献