首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 46 毫秒
1.
通过运用mat1ab软件编程对语音信号进行了基音提取,并以MFCC、基于基音周期和MFCC的特征组合参数作为特征参数,建立了基于GMM模型的说话人识别系统。并通过识别实验得出的实验结果,发现使用基于基音周期和MFCC的特征组合参数作为特征参数,在人数为50-180人范围内,能够有效提高基于GMM说话人识别系统识别率。  相似文献   

2.
说话人识别使用遗传RBF网络   总被引:6,自引:0,他引:6       下载免费PDF全文
针对RBF网络普遍采用的一种训练算法所存在的局部最佳问题,本文将遗传算法用于RBF网络训练过程,增强了该网络的全局寻优能力,提高了RBF网络的模式识别性能.说话人识别实验显示,改进训练算法后,RBF网络的说话人识别率有稍许提高.  相似文献   

3.
基于互信息匹配模型的说话人识别   总被引:4,自引:0,他引:4  
依据互信息理论提出的互信息匹配识别模型MIM(Mutual Information Matching),能够有效地综合处理语音信号的统计分布特征与时变分布特征,并具有较强的鲁棒性。介绍了运用互信息进行说话人模式匹配的原理,探讨了基于文本的说话人识别中MIM模型的应用,通过说话人辨别实验对MIM模型的性能进行了实验分析,并与其它识别模型DTW和GMM进行了比较。对18名男性和12名女性组成的30名说话人进行的识别实验表明, MIM模型的说话人识别性能较好,在采用LPCC特征参数的情况下,平均错误识别率为1.33%。  相似文献   

4.
5.
混响感知的听觉心理   总被引:1,自引:1,他引:0       下载免费PDF全文
孟子厚 《应用声学》2013,32(2):81-90
综述了中国传媒大学传播声学研究所近年来在混响的主观感知机理上的研究工作和进展,涉及混响感的语意调查与分析,音乐听闻的混响偏爱度实验,混响感的差别阈限,混响感的因素分析,以及混响处理与音乐情感之间的相互影响等研究结果。对混响感知的研究对进一步探究在有界空间中主观听感的生理心理机制是十分有启发的。  相似文献   

6.
研究最小方差无失真响应感知倒谱系数在说话人识别中的应用。提取最小方差无失真响应感知倒谱系数,对其进行高斯混合模型建模并采用联合因子分析的方法来拟合高斯混合模型中的说话人和信道差异,在美国国家标准技术研究院2008年说话人识别评测核心测试集上分别对最小方差无失真响应感知倒谱系数和传统的Mel频率倒谱系数进行测试。结果显示,两种不同特征的系统性能相当,采用线性融合方法后,在不同测试集上的等错误率相对下降了7.6%~30.5%,最小检测错误代价相对下降了3.2%~21.2%。实验表明,最小方差无失真响应感知倒谱系数能有效应用于说话人识别中,且与传统的Mel频率倒谱系数存在一定程度的互补性。  相似文献   

7.
矢量泰勒级数特征补偿的说话人识别   总被引:2,自引:0,他引:2       下载免费PDF全文
将矢量泰勒级数(Vector Taylor Series,VTS)特征补偿算法应用于说话人识别,给出了卷积噪声方差的近似闭式解,构建了联合快速估计卷积噪声和加性噪声均值和方差的框架。该算法可在无需失配环境先验信息的前提下,直接从失配语音中估计出卷积噪声和加性噪声的均值和方差,实现对环境失配的补偿。实验结果表明,在信道变化较大的无线信道下,卷积噪声方差的补偿最高可降低误识率3.24%.提升了系统的识别性能。在存在加性噪声的无线信道下,与基于线性失真模型的特征映射算法和倒谱均值减算法相比,本文算法可分别最大降低49.65%和68.06%的误识率,适合于信道变化较大的失配环境补偿。  相似文献   

8.
深浅层特征及模型融合的说话人识别   总被引:4,自引:0,他引:4       下载免费PDF全文
为了进一步提高说话人识别系统的性能,提出基于深、浅层特征融合及基于I-Vector的模型融合的说话人识别。基于深、浅层特征融合的方法充分考虑不同层级特征之间的互补性,通过深、浅层特征的融合,更加全面地描述说话人信息;基于I-Vector模型融合的方法融合不同说话人识别系统提取的I-Vector特征后进行距离计算,在系统的整体结构上综合了不同说话人识别系统的优势。通过利用CASIA南北方言语料库进行测试,以等错误率为衡量指标,相比基线系统,基于深、浅层特征融合的说话人识别其等错误率相对下降了54.8%,基于I-Vector的模型融合的方法其等错误率相对下降了69.5%。实验结果表明,深、浅层特征及模型融合的方法是有效的。  相似文献   

9.
基于听觉感知的噪声语义描述是噪声声品质研究的基础性问题,已有研究未将语义描述与噪声来源、频谱特性以及产品运行状态等物理信息联系起来。该文分别针对飞机舱内噪声、车辆噪声和空气净化器噪声这3组典型噪声开展了主观评价实验,并通过多维尺度分析和主成分分析描述了3组噪声的语义空间,系统分析了不同类型噪声的描述词,同时解释了描述词与噪声物理属性之间的联系。研究发现:飞机舱内噪声、车辆噪声以及空气净化器噪声可以由4维、4维和3维语义空间进行描述;不同类型噪声在语义描述中具有共性与个性,3组噪声语义的主要维度均与嘈杂感相关,而噪声的个性描述词与其声源的物理属性密切相关;进行声品质建模及应用时,应同时考虑噪声共性和个性描述词对听觉感知的影响,采取有针对性的措施以提升产品声品质。该文从听觉感知的角度进行了噪声特性的语义描述和分析,研究结果可为产品声品质以及噪声控制研究提供帮助。  相似文献   

10.
自适应听觉感知时频分析模型   总被引:1,自引:0,他引:1  
提出了一种具有强度自适应机制的仿听觉感知时频分析模型—Adaptive Ear Wig Distribution(AEWD),该模型是O'Donovan的Ear Wig Distribution(EWD)模型的扩展。AEWD的主要改进在于使用Patterson等近几年来提出的Cascade Compressive Gammachirp(Cascade cGC)模型,替换原有模型使用的Gammatone(GT)模型构造频域平滑窗,从而使AEWD模型具有了随输入信号功率而自适应调整的能力。相较于EWD模型,AEWD描述的时频分布更加符合听觉感知实际。最后,文中给出了一些典型信号的计算实例,说明了AEWD模型的有效性。  相似文献   

11.
In this paper, a speaker recognition system that introduces acoustic information into a Gaussian mixture model (GMM)-based recognizer is presented. This is achieved by using a phonetic classifier during the training phase. The experimental results show that, while maintaining the recognition rate, the decrease in the computational load is between 65% and 80% depending on the number of mixtures of the models.  相似文献   

12.
一种适于说话人识别的非线性频率尺度变换   总被引:3,自引:0,他引:3  
俞一彪  袁冬梅  薛峰 《声学学报》2008,33(5):450-455
传统的非线性频率尺度变换虽然能够反映人类听觉系统(HAS:Human Auditory System)的感知特性,但不能区别对待语音中包含的语义和个性特征,在表达说话人个性特征方面并不充分。通过分析语音信号不同频带短时谱对说话人识别性能的影响,采用最小二乘法多项式曲线拟合技术,提出了一种非线性频率尺度变换。实验表明,与传统的Mel、Bark和ERB频率尺度变换相比,在同样的训练与测试条件下,平均误识率分别降低70.5%,60.8%和70.5%。这一结果说明,本文提出的非线性频率尺度变换有效地增强了短时谱的说话人个性特征,能够提高说话人识别系统的性能。  相似文献   

13.
长时语音特征在说话人识别技术上的应用   总被引:1,自引:0,他引:1  
本文除介绍常用的说话人识别技术外,主要论述了一种基于长时时频特征的说话人识别方法,对输入的语音首先进行VAD处理,得到干净的语音后,对其提取基本时频特征。在每一语音单元内把基频、共振峰、谐波等时频特征的轨迹用Legendre多项式拟合的方法提取出主要的拟合参数,再利用HLDA的技术进行特征降维,用高斯混合模型的均值超向量表示每句话音时频特征的统计信息。在NIST06说话人1side-1side说话人测试集中,取得了18.7%的等错率,与传统的基于MFCC特征的说话人系统进行融合,等错率从4.9%下降到了4.6%,获得了6%的相对等错率下降。   相似文献   

14.
郭铭  陈云凤 《声学学报》1993,18(2):148-153
本文研究自动发音人识别中测试文本的选择.提出并证实了结合汉语特点的测试文本选择的重要性和应用潜力,并总结了几条简单规则;应用并改善了解决发音动态变化的时间域规正法.
本系统用12阶LPCC倒谱系数和基音周期构成混合特征矢量,采用三字三模板匹配的识别方法,在一般实验室环境下,以录音机为传输媒介,达到了0.6%的确认错误率。  相似文献   

15.
几种高鲁棒性通道及说话人自适应语音识别算法研究   总被引:1,自引:1,他引:0  
陈景东  姚磊  黄泰翼 《声学学报》1998,23(6):537-544
鲁棒性问题是决定语音识别技术能否在实际中得以应用和推广的关键问题之一。概括起来说,导致语音识别系统性能变坏的原因大体上来自三个方面,即噪声(加性噪声、卷积噪声)、信道变化和不同的讲话者(不同的声道形状、不同的发育方式等)。本文对三种高鲁律性自适应语音识别方法进行了研究和改进,并对它们的性能进行了比较,这三种方法分别是VQ码本自适应法、HMM参数自适应法和基于正则相关分析的谱变换补偿方法。实验结果表明,这三种方法都能提高非特定人语音识别系统对信道以及说话人的鲁棒性,而且基于正则相关分析的稻变换补偿方法具有最好的性能,它能够补偿由三种失真源同时引起的训练条件与测试条件之间的不匹配,因此适合作为一种通用的自适应方法。  相似文献   

16.
基于ARMA模型的汉语讲话者识别   总被引:3,自引:0,他引:3  
林宝成  陈永彬 《声学学报》1998,23(3):229-234
实现了一个仅用鼻音声母且与文本无关的汉语讲话者识别系统,根据讲话者在讲话时鼻腔相对固定、发鼻音时咽腔稳定,以及汉语鼻音声母(只有m-和n-两种)少(全部音节分别只有53和48个)的特点,使用极零(ARMA)模型获得所有汉语鼻声母音节的极点和零点系数的谱参数。系统在对20个讲话者识别时,其性能为:各个人所有单个声母测试时,总正识率为87.92%;分别随机地选用各人的人3、4、5个声母平均后测试时,则平均正识率可达91.67%、95.00%、96.67%、99.97%。  相似文献   

17.
In order to further improve the performance of speaker recognition, features fusion and models fusion are proposed. The features fusion method is to fuse deep and shallow features. The fused feature describes speaker characteristics more comprehensively than a single feature because of the complementarity between different levels of features. The models fusion method is to fuse i-vectors extracted from different speaker recognition systems. The fused model can combine advantages of different speaker recognition systems. Experimental results show the effectiveness of the proposed methods. Compared with the state-of-the-art system on CASIA North and South dialect corpus,the proposed features fusion system and models fusion system achieved about 54.8% and 69.5% relative improvement on the equal error rate(EER),respectively.  相似文献   

18.
A feature extraction technique named perceptual MVDR-based cepstral coefficients (PMCCs) was introduced into speaker recognition.PMCCs are extracted and modeled using Gaussian Mixture Models(GMMs) for speaker recognition.In order to compensate for speaker and channel variability effects,joint factor analysis(JFA) is used.The experiments are carried out on the core conditions of NIST 2008 speaker recognition evaluation data.The experimental results show that the systems based on PMCCs can achieve comparable performance to those based on the conventional MFCCs.Besides,the fusion of the two kinds of systems can make significant performance improvement compared to the MFCCs system alone,reducing equal error rate(EER) by the factor between 7.6%and 30.5%as well as minimum detect cost function (minDCF) by the factor between 3.2%and 21.2%on different test sets.The results indicate that PMCCs can be effectively applied in speaker recognition and they are complementary with MFCCs to some extent.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号