期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

蔡铁朱杰《上海交通大学学报》2005,39(12):1997-2001

针对语音识别系统中快速说话人自适应问题,提出了一种支持说话人权重算法．该算法通过支持说话人的计算实现了说话人选择与自适应参数的降维,减少了自适应时的存储量,有效提高了自适应数据较少时的性能．有监督自适应的实验结果表明,在仅有一句自适应语句的情况下系统误识率相对非特定人（SI）系统下降了5．82％,明显优于其他快速自适应算法．相似文献

2.

基于矩阵线性插值的说话人自适应算法 总被引：1，自引：0，他引：1

吕萍王作英陆大《清华大学学报(自然科学版)》2002,42(1):26-29

语音识别技术中说话人快速自适应技术受到普遍关注。最大似然模型插值 (maxim um likelihood model inter-polation,ML MI)算法是一种有效的快速自适应算法 ,它的主要缺点是需要存储大量的特定人模型。为克服这一缺点 ,该文提出一种改进方法——矩阵线性插值自适应算法。该算法用表示说话人特性的矩阵代替 ML MI中的特定人模型进行线性插值。而插值系数由测试者提供的语音数据按照最大似然准则确定。插值后的线性矩阵与非特定人模型相作用得到最终的说话人自适应模型。该算法大大减少了计算存储量 ,且自适应性能基本与 ML MI相当相似文献

3.

连续语音识别中的说话人快速自适应技术 总被引：2，自引：0，他引：2

吕萍吴及王作英陆大 《清华大学学报(自然科学版)》2002,42(7):977-980

语音识别技术中说话人快速自适应技术受到普遍关注。该文综述了说话人快速自适应技术在国际上的研究现状 ,并且介绍了本研究组提出的快速自适应方法 ,即最大似然模型插值快速自适应框架及插值算法。与现有的相关自适应方法相比 ,该算法在更复杂的识别系统上同时实现了均值和协方差的自适应 ,并取得较好的自适应效果。当仅有一句自适应数据时 ,识别系统的误识率从 2 8.75 %下降到2 4 .93%。相似文献

4.

基于VQ-HMM的无教师说话人自适应方法

赵力刘怡龙邹采荣高西奇吴镇扬《东南大学学报(自然科学版)》2001,31(2):23-26

提出了一种新的语音识别方法,该方法综合了VQ,HMM和无教师说话人自适应算法的优点。该方法首先在每个状态通过用矢量量化误差值取代传统HMM的输出概率值来建立VQ－HMM,同时采用无教师自适应矢量量化算法,来改变VQ－HMM的各状态的码字,从而实现对未知说话人的码本适应。本文通过非特定人汉语数码（孤立和连续数码）识别实验,把新的组合方法同基于CHMM的自适应和识别方法进行了比较,实验结果表明该方法鲁棒性好,所需计算量较少,自适应和识别效果远优于基于CHMM的方法。相似文献

5.

变异特征加权的异常语音说话人识别算法 总被引：1，自引：1，他引：0

何俊李艳雄贺前华李威《华南理工大学学报(自然科学版)》2012,40(3):106-111

常用的加权算法难以跟踪非常态语音特征的变异,为此,文中提出了一种变异特征加权的异常语音说话人识别算法.首先统计大量正常语音各阶MFCC特征的概率分布,建立正常语音特征模板;然后用测试语音特征与正常语音特征模板之间的K-L距离和欧氏距离来度量语音的变异程度,确定K-L加权因子和欧氏加权因子;最后利用加权因子对测试语音的MFCC特征进行加权,并将加权后的特征输入高斯混合模型进行异常语音说话人识别.实验结果表明,文中提出的K-L加权和欧氏加权的异常语音说话人识别算法的整体识别率分别为46.61%和42.25%,而基于各阶特征对说话人识别贡献的加权算法和不加权算法的整体识别率分别为39.68%和36.36%. 相似文献

6.

快速口音自适应的动态说话人选择性训练

董明刘加刘润生《清华大学学报(自然科学版)》2005,45(7):912-915

为解决语音识别系统实用中的说话人口音快速自适应问题,提出了一种动态说话人选择性训练方法。基于说话人选择性训练方法,采用基于Gauss混合模型似然分数计算的置信测度选择训练用说话人,改变训练用说话人的绝对数目选取方式,提高了选取的效能并拓展了选取标准的推广性。根据各个训练用说话人同被适应说话人的不同似然程度,加权地合成动态说话人选择性训练的语音模型,提高了自适应训练的效果。实验表明:该方法使识别率从80.16%提高到84.12%,相对误识率降低了19.96%,在实用中提高了基线系统的识别性能。相似文献

7.

基于多音素类模型的文本无关短语音说话人识别

张陈昊郑方王琳琳《清华大学学报(自然科学版)》2013,(6):813-817

对于基于Gauss混合模型-通用背景模型(Gaussianmixure model-universal background model,GMM-UBM)方法的文本无关说话人识别,当测试语音时长缩短到很短时,识别率会严重下降。为了充分利用文本内容信息,该文提出了一种基于K-top多音素类模型混合(KPCMMM)的建模方法。在音素识别阶段,利用语音识别得到训练语音的音素序列,在说话人识别阶段利用音素序列对每个说话人训练多个音素类模型,测试语音则在最相近的音素类模型上进行打分判决,K是选取的相近音素类数。由于音素类定义的不同,KPCMMM方法分为基于专家知识和数据驱动这两类。实验结果显示选择合适的K值可以得到更好的识别结果。不同的音素类定义方法的比较实验结果显示:当测试语音时长小于2s时,对比GMM-UBM基线系统,该方法的等错误率(EER)相对下降38.60%。相似文献

8.

神经网络预测模型的说话人识别算法

江太辉《五邑大学学报(自然科学版)》2003,17(1):23-26

将神经网络预测模型（NPM）应用于说话人识别中，经过实验，获得了较满意的结果。这说明神经网络对于说话人识别是一种很有潜力的方法。相似文献

9.

基于VQMAP模型和AdaBoost学习算法的说话人识别

吴海洋吕勇吴镇扬《东南大学学报(自然科学版)》2010,40(3)

为了解决传统说话人识别系统在集成学习后识别速度变慢且容易过学习的问题,构造了一种基于最大后验矢量量化(VQMAP)模型和自适应提升(AdaBoost)学习算法的说话人识别系统.首先,分析了说话人识别系统中基分类器性能对集成分类器泛化误差的影响.然后,针对说话人的类别数,构造适当精度的VQMAP模型.最后,利用包含提前终止策略的AdaBoost学习算法将该模型提升为强分类器.实验结果表明:该算法的识别速度较高,是最大后验高斯混合模型(GMMMAP)的9倍;该算法可有效控制AdaBoost学习算法在说话人识别中的过学习问题,其性能优于VQMAP模型,且在训练数据较少或者类别数可预计的情况下,其性能可接近甚至超过GMMMAP模型. 相似文献

10.

基于语音识别的说话人身份辨识系统 总被引：2，自引：0，他引：2

程利忠张宪民《上海交通大学学报》1998,32(9):86-89

提出一种在小字库孤立语音条件下,集成语音识别与说话人的识别技术,并进行说话人身份代码（密码）识别、认证．利用语音信号的短时分析技术进行孤立词的单元分割,采用临界带特征矢量作为语音信号特征,分析了经典语音识别算法——动态时间规整算法,提出了对语音模板各帧加权的改进方法．为提高识别响应速度,研究了多门限多轮次的判决方法,在增加多套模板、提高识别率的情况下,降低了系统的响应时间．相似文献

11.

鉴别性最大后验概率线性回归说话人自适应研究

齐耀辉潘复平葛凤培颜永红《北京理工大学学报》2015,35(9):946-950

为增强自适应后的声学模型的鉴别能力,提出了一种基于最大互信息(MMI)的鉴别性最大后验概率线性回归(MMI-DMAPLR)说话人自适应方法. 将最大互信息准则和最大后验概率(MAP)准则相结合,设计了一个新的目标函数来估计基于线性变换的自适应方法中的变换参数,在最大后验概率估计中加入了鉴别性. 大词汇量连续语音识别的实验结果表明,新方法在增强声学模型与测试数据的匹配性的同时,可以有效提高声学模型的鉴别能力,在少量自适应数据的情况下,其性能比最大后验概率线性回归(MAPLR)相对提高4.8%. 相似文献

12.

说话人辨认中基于进化策略的最大互信息训练方法

茅晓泉胡光锐唐斌《上海交通大学学报》2003,37(3):335-337

针对最大似然训练分辨能力的不足，把最大互信息训练方法引入到高斯混合模型（GMM）的训练中，并直接采用进化策略实现模型参数的全局训练，以模型与训练数据之间的互信息作为进化过程中个体的适应度。该系统不仅分辨能力强，而且摆脱了局部搜索的缺陷。实验结果表明，这种方法生成的说话人辨认系统的识别性能要优于传统的期望最大化算法（EM）生成的系统。相似文献

13.

基于话者分类和HMM的话者自适应语音识别 总被引：2，自引：1，他引：2

戴蓓倩郁正庆《中国科学技术大学学报》1996,26(2):147-153

本文提出了一种基于话者分类和ＨＭＭ的话者自适应语音识别方法，采用对参考话者聚类、并按话者类分别建立ＨＭＭ模板的策略，对于新注册的用户，系统只需利用其极少量的语音，便可将与之最相近的一类模板指派给新用户，再采用基于谱空间映射的两级自适应方法，使系统自适应到用户的模式下工作．这种方法既提高了识别性能，又降低了自适应的难度，还有利于ＨＭＭ的建立．讨论了话者分类数和自适应语音数据对话者自适应效果及识别性能的影响，提出了一种在自适应语音数据不足情况下仍具有较好自适应效果的基于ＦＶＱ的码本自适应改进算法，该算法还具有对自适应字表不敏感的特点．相似文献

14.

基于组合神经网络和模糊聚类的话者分类 总被引：2，自引：0，他引：2

戴蓓倩朱斌《中国科学技术大学学报》1997,27(1):25-30

基于话者分类的自适应语音识别是实现非限定人、大字表语音识别的一种很有前途的有效方法．本文设计了一种用于话者分类的主从式组合神经网络，以神经预测模型作为从网络，可以从短语音（一个音节，约０．３秒）中有效地提取、规正和压缩话者个人性信息；主网络采用具有很强聚类功能的自组织特征映射网络．针对话者个人性信息的模糊性，提出了模糊系统聚类算法和双类心聚类算法．实验验证了组合神经网络对于话者分类的有效性以及模糊聚类算法对不同文本的语音样本具有较好的适应性相似文献

15.

Speaker Adaptation with Transformation Matrix Linear Interpolation

XUXiang-hua ZHUJie 《武汉大学学报:自然科学英文版》2004,9(6):927-930

A transformation matrix linear interpolation (TMLI) approach for speaker adaptation is proposed. TMLI uses the transformation matrixes produced by MLLR from selected training speakers and the testing speaker. With only 3 adaptation sentences, the performance shows a 12.12% word error rate reduction. As the number of adaptation sentences increases, the performance saturates quickly. To improve the behavior of TMLI for large amounts of adaptation data, the TMLI MAP method which combines TMLI with MAP technique is proposed. Experimental results show TMLI MAP achieved better recognition accuracy than MAP and MLLR MAP for both small and large amounts of adaptation data. 相似文献

16.

基于修正MFCC参数汉语耳语音的话者识别 总被引：12，自引：1，他引：12

林玮杨莉莉徐柏龄《南京大学学报(自然科学版)》2006,42(1):54-62

耳语音的话者识别是一个较新的研究课题,许多参数模型与正常音存在差异.例如话者识别中常见的M el倒谱系数(MFCC)应用于耳语音中就存在共振峰和听觉敏感区域定位的偏差.基于对耳语音共振峰位置、能量以及人耳对耳语音听觉模型的研究提出了修正MFCC参数MFCCM和MFCCExp-Log,并结合两种参数的特点,改进了传统隐马尔可夫模型,建立了适用于耳语音的汉语话者识别系统.通过1 600个音的话者识别实验得出采用MFCCM的正确率为88.88%;MFCCExp-Log参数为91.38%;如果采用改进隐马尔可夫模型正确率可以提高到92.31%,均高于传统参数模型.实验表明,修正MFCC参数可以作为表征耳语音特点的参数,它提高了耳语音话者识别系统的识别率. 相似文献