期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

文本无关说话人识别的全特征矢量集模型及互信息评估方法 总被引：1，自引：0，他引：1

俞一彪王朔中《声学学报》2005,30(6):536-541

提出了一种文本无关说话人识别的全特征矢量集模型及互信息评估方法,该模型通过对一组说话人语音数据在特征空间进行聚类而形成,全面地反映了说话人语音的个性特征。对于说话人语音的似然度计算与判决,则提出了一种互信息评估方法,该算法综合分析距离空间和信息空间的似然度,并运用最大互信息判决准则进行识别判决。实验分析了线性预测倒谱系数(LPCC)和Mel频率倒谱系数(MFCC)两种情况下应用全特征矢量集模型和互信息评估算法的说话人识别性能,并与高斯混合模型进行了比较。结果表明:全特征矢量集模型和互信息评估算法能够充分反映说话人语音特征,并能够有效评估说话人语音特征相似程度,具有很好的识别性能,是有效的。相似文献

2.

采用归一化补偿变换的与文本无关的说话人识别 总被引：10，自引：0，他引：10

包永强赵力邹采荣《声学学报》2006,31(1):55-60

在噪声环境下,特别是当说话人识别最常用的模型——高斯混合模型(GMM)失配的情况下,需要对其输出帧似然概率的统计特性进行补偿。文章根据说话人识别的声学特性,提出了一种非线性变换方法——归一化补偿变换。理论分析和实验结果表明:与常用的最大似然(ML)变换相比,该变换能够提高系统识别率,最大可达3.7%,同时可降低误识率,最大可达45.1%。结果说明归一化补偿变换方法基本克服了在与文本无关说话人识别系统中,当说话人的个性特征不断变化、语音与噪声不能很好地分离或者降噪算法对语音有损伤、模型不能很好地匹配时,需要对模型输出的似然概率(得分)进行补偿的局限。这也说明对模型输出的似然概率进行处理是降低噪声和干扰的影响、提高说话人识别率的有效方法。相似文献

3.

深浅层特征及模型融合的说话人识别 总被引：4，自引：0，他引：4

下载免费PDF全文

仲伟峰方祥范存航温正棋陶建华《声学学报》2018,43(2):263-272

为了进一步提高说话人识别系统的性能,提出基于深、浅层特征融合及基于I-Vector的模型融合的说话人识别。基于深、浅层特征融合的方法充分考虑不同层级特征之间的互补性,通过深、浅层特征的融合,更加全面地描述说话人信息;基于I-Vector模型融合的方法融合不同说话人识别系统提取的I-Vector特征后进行距离计算,在系统的整体结构上综合了不同说话人识别系统的优势。通过利用CASIA南北方言语料库进行测试,以等错误率为衡量指标,相比基线系统,基于深、浅层特征融合的说话人识别其等错误率相对下降了54.8%,基于I-Vector的模型融合的方法其等错误率相对下降了69.5%。实验结果表明,深、浅层特征及模型融合的方法是有效的。相似文献

4.

基于GMM的说话人识别

李姮胡维平《广西物理》2011,(1):21-24

通过运用mat1ab软件编程对语音信号进行了基音提取,并以MFCC、基于基音周期和MFCC的特征组合参数作为特征参数,建立了基于GMM模型的说话人识别系统。并通过识别实验得出的实验结果,发现使用基于基音周期和MFCC的特征组合参数作为特征参数,在人数为50-180人范围内,能够有效提高基于GMM说话人识别系统识别率。相似文献

5.

长时语音特征在说话人识别技术上的应用 总被引：1，自引：0，他引：1

张建平李明索宏彬杨琳付强颜永红《声学学报》2010,35(2):267-269

本文除介绍常用的说话人识别技术外,主要论述了一种基于长时时频特征的说话人识别方法,对输入的语音首先进行VAD处理,得到干净的语音后,对其提取基本时频特征。在每一语音单元内把基频、共振峰、谐波等时频特征的轨迹用Legendre多项式拟合的方法提取出主要的拟合参数,再利用HLDA的技术进行特征降维,用高斯混合模型的均值超向量表示每句话音时频特征的统计信息。在NIST06说话人1side-1side说话人测试集中,取得了18.7%的等错率,与传统的基于MFCC特征的说话人系统进行融合,等错率从4.9%下降到了4.6%,获得了6%的相对等错率下降。相似文献

6.

说话人识别使用遗传RBF网络 总被引：6，自引：0，他引：6

下载免费PDF全文

岳喜才管桦叶大田《应用声学》2000,19(2):35-38

针对RBF网络普遍采用的一种训练算法所存在的局部最佳问题,本文将遗传算法用于RBF网络训练过程,增强了该网络的全局寻优能力,提高了RBF网络的模式识别性能.说话人识别实验显示,改进训练算法后,RBF网络的说话人识别率有稍许提高. 相似文献

7.

基于互信息匹配模型的说话人识别 总被引：4，自引：0，他引：4

俞一彪王朔中《声学学报》2004,(5)

依据互信息理论提出的互信息匹配识别模型MIM(Mutual Information Matching),能够有效地综合处理语音信号的统计分布特征与时变分布特征,并具有较强的鲁棒性。介绍了运用互信息进行说话人模式匹配的原理,探讨了基于文本的说话人识别中MIM模型的应用,通过说话人辨别实验对MIM模型的性能进行了实验分析,并与其它识别模型DTW和GMM进行了比较。对18名男性和12名女性组成的30名说话人进行的识别实验表明, MIM模型的说话人识别性能较好,在采用LPCC特征参数的情况下,平均错误识别率为1.33％。相似文献

8.

感知听觉场景分析的说话人识别

吴迪陶智张晓俊周燕潘欣裕肖仲喆赵鹤鸣《声学学报》2016,41(2):260-272

针对低信噪比说话人识别中缺失数据特征方法鲁棒性下降的问题,提出了一种采用感知听觉场景分析的缺失数据特征提取方法。首先求取语音的缺失数据特征谱,并由语音的感知特性求出感知特性的语音含量。含噪语音经过感知特性的语音增强和对其语谱的二维增强后求解出语音的分布,联合感知特性语音含量和缺失强度参数提取出感知听觉因子。再结合缺失数据特征谱把特征的提取过程分解为不同听觉场景进行区分地分析和处理,以增强说话人识别系统的鲁棒性能。实验结果表明,在-10 dB到10 dB的低信噪比环境下,对于4种不同的噪声,提出的方法比5种对比方法的鲁棒性均有提高,平均识别率分别提高26.0%,19.6%,12.7%,4.6%和6.5%。论文提出的方法,是一种在时-频域中寻找语音鲁棒特征的方法,更适合于低信噪比环境下的说话人识别。相似文献

9.

模型与特征混合补偿法及其在耳语说话人识别中的应用

下载免费PDF全文

顾晓江赵鹤鸣吕岗《声学学报》2012,37(2):198-203

为了提高信道差异下短时耳语说话人的识别率,提出了一种在模型域和特征域进行混合补偿的方法。该方法首先在模型训练阶段以联合因子分析法为基础,通过估计训练语音的说话人空间和信道空间,提取出说话人因子,消除信道因子,其次在测试阶段,将测试语音的信道因子映射到特征空间,实施特征补偿,从而在模型和特征两方面去除信道信息,提高识别率。实验结果显示,在三种不同的信道训练环境下,混合补偿法都取得了相似的识别率,且新方法对短时耳语音的测试效果要优于联合因子分析法。相似文献

10.

基于高斯混合模型移动因子补偿的说话人识别方法

姜涛韩纪庆郑铁然《声学学报》2011,36(6):658-664

提出一种模型补偿方法,以克服基于高斯混合模型的文本无关说话人识别系统性能随目标话者训练语料长度减小而下降的问题。该方法首先构造了一个低维的移动空间,每个训练语料较充分说话人模型的自适应过程均可用该空间中的移动因子表示,然后在目标话者训练语料较不充分的条件下,从受训练语料长度影响较小的话者模型分量中学习移动因子,并依据它对受语料长度影响较大的分量进行参数补偿。和基线系统相比,该方法在相同的训练和评测集上,等错误率指标下,获得相对约7%的性能提升。相似文献

11.

基于密集连接时延神经网络的说话人识别算法*

下载免费PDF全文

和椿皓常铁原潘立冬王珺《应用声学》2024,43(2):378-384

说话人识别技术是一项重要的生物特征识别技术。近年来,使用深度神经网络提取发声特征的说话人识别算法取得了突出成果。时延神经网络作为其中的典型代表之一已被证明具有出色的特征提取能力。为进一步提升识别准确率并节约计算资源,通过对现有的说话人识别算法进行研究,提出一种带有注意力机制的密集连接时延神经网络用于说话人识别。密集连接的网络结构在增强不同网络层之间的信息复用的同时能有效控制模型体积。通道注意力机制和帧注意力机制帮助网络聚焦于更关键的细节特征,使得通过统计池化提取出的说话人特征更具有代表性。实验结果表明,在VoxCeleb1测试数据集上取得了1.40%的等错误率（EER）和0.15的最小检测代价标准（DCF）,证明了在说话人识别任务上的有效性。相似文献

12.

基于ARMA模型的汉语讲话者识别 总被引：3，自引：0，他引：3

林宝成陈永彬《声学学报》1998,23(3):229-234

实现了一个仅用鼻音声母且与文本无关的汉语讲话者识别系统,根据讲话者在讲话时鼻腔相对固定、发鼻音时咽腔稳定,以及汉语鼻音声母(只有m-和n-两种)少(全部音节分别只有53和48个)的特点,使用极零(ARMA)模型获得所有汉语鼻声母音节的极点和零点系数的谱参数。系统在对20个讲话者识别时,其性能为:各个人所有单个声母测试时,总正识率为87.92%;分别随机地选用各人的人3、4、5个声母平均后测试时,则平均正识率可达91.67%、95.00%、96.67%、99.97%。相似文献

13.

Whispered speaker identification based on feature and model hybrid compensation

GU Xiaojiang ZHAO Heming LU|¨ Gang 《声学学报：英文版》2012,(4):499-508

In order to increase short time whispered speaker recognition rate in variable channel conditions,the hybrid compensation in model and feature domains was proposed.This method is based on joint factor analysis in training model stage.It extracts speaker factor and eliminates channel factor by estimating training speech speaker and channel spaces.Then in the test stage,the test speech channel factor is projected into feature space to engage in feature compensation,so it can remove channel information both in model and feature domains in order to improve recognition rate.The experiment result shows that the hybrid compensation can obtain the similar recognition rate in the three different training channel conditions and this method is more effective than joint factor analysis in the test of short whispered speech. 相似文献

14.

Phonetically trained models for speaker recognition

Rodríguez-Liñares L Garciá-Mateo C 《The Journal of the Acoustical Society of America》2001,109(1):385-389

In this paper, a speaker recognition system that introduces acoustic information into a Gaussian mixture model (GMM)-based recognizer is presented. This is achieved by using a phonetic classifier during the training phase. The experimental results show that, while maintaining the recognition rate, the decrease in the computational load is between 65% and 80% depending on the number of mixtures of the models. 相似文献

15.

融合分布对齐和对抗学习的无监督跨域声纹识别

下载免费PDF全文

陈志高赵庆卫王丽王文超《声学学报》2021,46(5):767-774

针对声纹识别领域不匹配,且目标领域缺少标注数据的难题,提出在对抗学习基础上融合分布对齐的无监督领域自适应方法,通过训练过程中统计分布的对齐,以减小领域差异,从而提取声音中更有声纹鉴别性的特征,取得了稳定的性能提升。在文本相关的声纹识别任务中,对抗学习和分布对齐的方法能协同发挥作用,等错率相对降低11%;在文本无关的任务中,对抗学习效果不稳定,而分布对齐的方法依然有相对8%的性能提升。实验结果证明该方法在领域不匹配且目标领域缺少标注数据时,能有效提取语音中声纹鉴别信息,稳定提升识别性能。相似文献

16.

自动发音人识别中测试文本选择的研究

郭铭陈云凤《声学学报》1993,18(2):148-153

本文研究自动发音人识别中测试文本的选择.提出并证实了结合汉语特点的测试文本选择的重要性和应用潜力,并总结了几条简单规则;应用并改善了解决发音动态变化的时间域规正法.
本系统用12阶LPCC倒谱系数和基音周期构成混合特征矢量,采用三字三模板匹配的识别方法,在一般实验室环境下,以录音机为传输媒介,达到了0.6%的确认错误率。相似文献

17.

一种适于说话人识别的非线性频率尺度变换 总被引：3，自引：0，他引：3

俞一彪袁冬梅薛峰《声学学报》2008,33(5):450-455

传统的非线性频率尺度变换虽然能够反映人类听觉系统(HAS:Human Auditory System)的感知特性,但不能区别对待语音中包含的语义和个性特征,在表达说话人个性特征方面并不充分。通过分析语音信号不同频带短时谱对说话人识别性能的影响,采用最小二乘法多项式曲线拟合技术,提出了一种非线性频率尺度变换。实验表明,与传统的Mel、Bark和ERB频率尺度变换相比,在同样的训练与测试条件下,平均误识率分别降低70.5%,60.8%和70.5%。这一结果说明,本文提出的非线性频率尺度变换有效地增强了短时谱的说话人个性特征,能够提高说话人识别系统的性能。相似文献

18.

最小方差无失真响应感知倒谱系数在说话人识别中的应用

下载免费PDF全文

梁春燕张翔杨琳张建平颜永红《声学学报》2012,37(6):673-678

研究最小方差无失真响应感知倒谱系数在说话人识别中的应用。提取最小方差无失真响应感知倒谱系数,对其进行高斯混合模型建模并采用联合因子分析的方法来拟合高斯混合模型中的说话人和信道差异,在美国国家标准技术研究院2008年说话人识别评测核心测试集上分别对最小方差无失真响应感知倒谱系数和传统的Mel频率倒谱系数进行测试。结果显示,两种不同特征的系统性能相当,采用线性融合方法后,在不同测试集上的等错误率相对下降了7.6%~30.5%,最小检测错误代价相对下降了3.2%~21.2%。实验表明,最小方差无失真响应感知倒谱系数能有效应用于说话人识别中,且与传统的Mel频率倒谱系数存在一定程度的互补性。相似文献