共查询到20条相似文献,搜索用时 15 毫秒
1.
针对非平行语料非联合训练条件下的语音转换,提出一种基于倒谱本征空间结构化高斯混合模型的方法。提取说话人语音倒谱特征参数之后,根据其散布矩阵计算本征向量构造倒谱本征空间并训练结构化高斯混合模型SGMM-ES(Structured Gaussian Mixture Model in Eigen Space)。源和目标说话人各自独立训练的SGMM-ES根据全局声学结构AUS(Acoustical Universal Structure)原理进行匹配对准,最终得到基于倒谱本征空间的短时谱转换函数。实验结果表明,转换语音的目标说话人平均识别率达到95.25%,平均谱失真度为1.25,相对基于原始倒谱特征空间的SGMM方法分别提高了0.8%和7.3%,而ABX和MOS测评表明转换性能非常接近于传统平行语料方法。这一结果说明采用倒谱本征空间结构化高斯混合模型进行非平行语料条件下的语音转换是有效的。 相似文献
2.
《声学学报:英文版》2015,(1)
针对非平行语料非联合训练条件下的语音转换,提出一种基于倒谱本征空间结构化高斯混合模型的方法。提取说话人语音倒谱特征参数之后,根据其散布矩阵计算本征向量构造倒谱本征空间并训练结构化高斯混合模型SGMM-ES(Structured Gaussian Mixture Model in Eigen Space)。源和目标说话人各自独立训练的SGMM-ES根据全局声学结构AUS(Acoustical Universal Structure)原理进行匹配对准,最终得到基于倒谱本征空间的短时谱转换函数。实验结果表明,转换语音的目标说话人平均识别率达到95.25%,平均谱失真度为1.25,相对基于原始倒谱特征空间的SGMM方法分别提高了0.8%和7.3%,而ABX和MOS测评表明转换性能非常接近于传统平行语料方法。这一结果说明采用倒谱本征空间结构化高斯混合模型进行非平行语料条件下的语音转换是有效的。 相似文献
3.
提出一种混沌系统自适应追踪控制任意参考信号的新方法.该方法是通过预先设计出补偿控制器将混沌系统状态变量对参考信号的追踪控制问题转化为同结构混沌系统状态变量的自适应同步问题,再通过设计出自适应控制器,使同结构混沌系统全局渐近达到同步,追踪控制器为补偿控制器和自适应控制器的代数和.基于Lyapunov稳定性原理,理论上严格证明了利用本方法所设计追踪控制器的正确性.最后,以超混沌Chen系统为控制对象,利用本方法设计出追踪控制器完成了对不动点,正、余弦信号,同结构混沌系统状态变量,异结构混沌系统状态变量的追踪控
关键词:
自适应追踪控制
补偿控制器
自适应控制器
追踪控制器 相似文献
4.
采用非线性模型替代线性回归模型响应本征正交分解(POD)基函数的系数,并采用自适应抽样方法确定快照集合,实现了基于自适应POD混合模型的跨音速叶片复杂流动分析及流场拟合.首先通过比较基于线性回归模型和非线性回归模型的基函数系数响应精度,验证非线性回归模型的收敛性和精确性;之后通过与静态抽样方法进行对比,研究分析自适应抽样技术的优越性;最后开展基于自适应POD混合模型的全三维跨音速流场分析及流动拟合.结果表明,采用自适应POD混合模型,不仅能够清晰地识别三维跨音速流场中的敏感流动特征,还能精确地拟合设计空间内任意状态的流场及出口气动参数. 相似文献
5.
压缩感知(Compressed Sensing,CS)理论突破了经典采样定理的理论边界,为信号压缩提供了另一种途径。基于CS理论框架,做了两方面工作:为提高语音字典对信号的匹配性,设计了一种基于K-L展开的非相干语音字典;针对现有匹配追踪(MP,OMP)算法的不足,提出分段匹配追踪(Segment MP,SegMP)算法。首先对语音自相关函数进行建模并估计模型参数,构造语音自适应非相干字典,然后采用SegMP对语音稀疏向量分段观测,获得多个低维矢量,最后结合模型参数重建字典并重构信号,实现了语音压缩感知。语音测试结果表明:相比现有方案,本文方案对信号的稀疏表示更为精准,具有更好的重构质量,且降低了计算复杂度。 相似文献
6.
复杂空间结构矢量光场是当前光场调控领域的重要研究内容。作为一类基于椭圆坐标系的本征激光场,Ince-Gaussian(IG)光场比Laguerre-Gaussian和Hermite-Gaussian两类本征光场具有更丰富的空间自由度,是构建复杂空间结构矢量光场的基本光场之一。基于正交偏振IG偶模和奇模的空间叠加理论,通过空间光调制器分离调控偶模和奇模光场,系统地研究了不同阶数下正交偏振IG模式叠加生成的不同空间结构的IG矢量光场。对获取的矢量光场进行分析,并与理论模拟的结果进行对比,验证了并联分离调控产生IG矢量光场的可行性。 相似文献
7.
一种改进的基于层次聚类的说话人自动聚类算法 总被引:1,自引:0,他引:1
说话人聚类是语音识别以及音频检索等众多语音应用的重要组成部分.提出一种改进的基于层次聚类的说话人聚类算法,对层次聚类法做出了进一步改进:(1)改进误差平方和准则以提高聚类速度;(2)引入假设检验方法确定类别数目;(3)提出一种稳健的在线聚类方法以解决对新到来的语音段进行聚类的问题.在聚类实验中,算法的平均类纯度和说话人纯度分别为96.7%和96.6%.实验结果还表明,相比手工标注说话人信息,将该算法的聚类结果应用于说话人自适应可降低系统的误识率. 相似文献
8.
9.
10.
11.
12.
现阶段用于语音转换的深度学习方法多是通过使用大量的训练数据来生成高质量的语音。本文提出了一种基于平均模型和误差削减网络的语音转换框架,可用于有限数量的训练数据。首先,基于CBHG网络的平均模型使用排除源说话人和目标说话人的多说话人语音数据进行训练;然后,在有限数量的目标语音数据下对平均模型执行自适应训练;最后,提出一种误差削减网络,可以进一步改善转换后语音的质量。实验表明,所提出的语音转换框架可以灵活地处理有限的训练数据,并且在客观和主观评估方面均优于传统框架。 相似文献
13.
基于高光谱基本准则的波段选择方法 总被引:1,自引:0,他引:1
高光谱数据具有光谱波段多、维度高、数据量庞大的特点,为了提高高光谱数据的处理速度,需要进行降维处理,而波段选择是高光谱降维的基本方法之一。综合考虑,提出基于高光谱波段选择相关性、信息量及类间可分性的方法。通过虚拟维度确定高光谱图像的本征维数,并根据波段间的相关系数进行子空间划分;提出利用基于信息量的离散波段指数,在各个子空间中计算出最大的波段指数构成子集;根据类间可分性准则在子空间中选出可分性因子最大的合适波段。利用光谱角匹配选出最适合分类的波段,组成最后的波段子集,从而实现波段选择的降维处理。通过实验验证,所提方法与传统的最佳指数和自适应波段选择方法相比,在一定程度上提高了高光谱图像的分类精度。 相似文献
14.
基于特征匹配和校验的鲁棒实时电子稳像 总被引:4,自引:3,他引:1
提出了一种基于特征点匹配和校验的鲁棒实时电子稳像算法.首先利用Kanade-LucasTomasi角点检测器提取参考帧和当前帧的特征点,并用绝对误差和准则进行特征点匹配;在校验阶段,提出一种能够有效剔除前景运动物体特征点和错误匹配点的空间位置不变准则;最后,在相似运动模型下,利用最小二乘法求解全局运动矢量进行运动补偿.... 相似文献
15.
文本无关说话人识别的全特征矢量集模型及互信息评估方法 总被引:1,自引:0,他引:1
提出了一种文本无关说话人识别的全特征矢量集模型及互信息评估方法,该模型通过对一组说话人语音数据在特征空间进行聚类而形成,全面地反映了说话人语音的个性特征。对于说话人语音的似然度计算与判决,则提出了一种互信息评估方法,该算法综合分析距离空间和信息空间的似然度,并运用最大互信息判决准则进行识别判决。实验分析了线性预测倒谱系数(LPCC)和Mel频率倒谱系数(MFCC)两种情况下应用全特征矢量集模型和互信息评估算法的说话人识别性能,并与高斯混合模型进行了比较。结果表明:全特征矢量集模型和互信息评估算法能够充分反映说话人语音特征,并能够有效评估说话人语音特征相似程度,具有很好的识别性能,是有效的。 相似文献
16.
受到距离和观测条件等因素的影响,地基设施对高轨空间目标的观测能力有限,但天基观测设施可以有效突破地基设施的观测局限,从而提高对高轨空间目标的观测效率和精度.基于此,结合当前天基测量技术的现状,研究基于天基光学测角的高轨空间目标轨道确定方法,包括初始轨道确定方法和轨道改进方法.针对观测量类型对轨道确定结果的影响,推导直接利用天基观测角度的轨道改进方法,以及基于天基观测方向矢量的轨道改进方法.利用仿真数据和实测数据对两种改进方法进行比较.研究结果表明,基于天基观测方向矢量解算得到的高轨目标轨道精度相对较高,可为我国空间态势感知体系的建设提供有益借鉴. 相似文献
17.
18.
19.
常见的多说话人语音合成有参数自适应及添加说话人标签两种方法。参数自适应方法获得的模型仅支持合成经过自适应的说话人的语音,模型不够鲁棒。传统的添加说话人标签的方法需要有监督地获得语音的说话人信息,并没有从语音信号本身无监督地学习说话人标签。为解决这些问题,提出了一种基于变分自编码器的自回归多说话人语音合成方法。方法首先利用变分自编码器无监督地学习说话人的信息并将其隐式编码为说话人标签,之后与文本的语言学特征送入到一个自回归声学参数预测网络中。此外,为了抑制多说话人语音数据引起的基频预测过拟合问题,声学参数网络采用了基频多任务学习的方法。预实验表明,自回归结构的加入降低了频谱误差1.018 dB,基频多任务学习降低了基频均方根误差6.861 Hz。在后续的多说话人对比实验中,提出的方法在3个多说话人实验的平均主观意见分(MOS)打分上分别达到3.71,3.55,3.15,拼音错误率分别为6.71%,7.54%,9.87%,提升了多说话人语音合成的音质。 相似文献
20.
基于深度聚类的语音分离方法已被证明能有效地解决混合语音中说话人输出标签排列的问题,然而,现有关于聚类进行说话人分离方法,大多数是优化嵌入使每个源的重建误差最小化。本文以时域卷积网络(ConvTasNet)为基础网络,设计了一种改进基于聚类的门控卷积(Gate-conv Cluster)语音分离方法,在时域上通过堆叠的门控卷积网络,实现端到端深度聚类的源分离。该框架将非线性门控激活用于时域卷积网络中,提取语音信号的深层次特征;同时在高维特征空间中聚类对语音信号的特征进行表示和划分,为恢复不同信号源提供了一个长期的说话者表示信息。该框架解决了说话人输出标签排列问题并对语音信号的长期依赖性进行建模。通过华尔街日报数据集进行实验得出,该方法在SDRi(信源失真比)和Si-SNR(尺度不变信源噪声比)指标上分别达到了16.72 dB和16.33 dB的效果。 相似文献