共查询到20条相似文献,搜索用时 15 毫秒
1.
基于互信息匹配模型的说话人识别 总被引:4,自引:0,他引:4
依据互信息理论提出的互信息匹配识别模型MIM(Mutual Information Matching),能够有效地综合处理语音信号的统计分布特征与时变分布特征,并具有较强的鲁棒性。介绍了运用互信息进行说话人模式匹配的原理,探讨了基于文本的说话人识别中MIM模型的应用,通过说话人辨别实验对MIM模型的性能进行了实验分析,并与其它识别模型DTW和GMM进行了比较。对18名男性和12名女性组成的30名说话人进行的识别实验表明, MIM模型的说话人识别性能较好,在采用LPCC特征参数的情况下,平均错误识别率为1.33%。 相似文献
2.
为了进一步提高说话人识别系统的性能,提出基于深、浅层特征融合及基于I-Vector的模型融合的说话人识别。基于深、浅层特征融合的方法充分考虑不同层级特征之间的互补性,通过深、浅层特征的融合,更加全面地描述说话人信息;基于I-Vector模型融合的方法融合不同说话人识别系统提取的I-Vector特征后进行距离计算,在系统的整体结构上综合了不同说话人识别系统的优势。通过利用CASIA南北方言语料库进行测试,以等错误率为衡量指标,相比基线系统,基于深、浅层特征融合的说话人识别其等错误率相对下降了54.8%,基于I-Vector的模型融合的方法其等错误率相对下降了69.5%。实验结果表明,深、浅层特征及模型融合的方法是有效的。 相似文献
3.
Mel子带谱质心和高斯混合相关性在鲁棒话者识别中的应用 总被引:1,自引:0,他引:1
提出了两种方法以克服背景噪音的干扰并提高说话人识别系统的鲁棒性:一种方法是基于频谱峰值位置受背景噪音影响相对较小的考虑,将子带幅度信息和子带Mel频谱质心(SMSC)相结合;另一种方法是通过计算类转移概率矩阵来对隐藏于高斯混合相关(GMC)中的说话人高层信息进行建模。实验表明SMSC和GMC都能够在平稳噪音环境下提高说话人识别系统的鲁棒性,并且采用SMSC和GMC的GMM-UBM系统跟使用传统MFCC的GMM-UBM基准系统相比,平均错误率下降了11.7%。 相似文献
4.
详细分析了目前语音识别系统中普遍采用的Mel频率倒谱系数(MFCC)特征参数的提取过程和动态时间规整(DTW)识别算法流程,提出了一种在NiosII SOPC软核平台上通过提取和分析语音信号的MFCC特征参数实现语音识别解决方案。 相似文献
5.
6.
7.
多语种情感语音的韵律特征分析和情感识别研究 总被引:3,自引:1,他引:2
韵律特征参数的变化是语音信号中情感信息主要体现。为了研究基于少量韵律特征的多语种语音样本情感识别的可行性,以提高情感识别系统对语种信息的鲁棒性,实验选取七种典型的情感状态,对指定句式下同一说话人在汉语、英语、日语多语种语音样本中的基频、能量、时间等韵律参数的动态特性进行统计分析。统计结果表明,不同语种情感语音样本的各种韵律特征参数的变化结构有较好的一致性。在这一结论基础上,利用主元素分析方法(PCA)对多语种混合样本进行了初步的情感识别实验,平均错误率为27.74%,最低识别错误率为11%。可见,通过基本的韵律参数可以实现对几种基本情感忽略语种信息的初步有效识别。 相似文献
8.
基于基音参数规整及统计分布模型距离的语音情感识别 总被引:17,自引:0,他引:17
提出一种根据基音提取的频率分辨率确定自适应窗口的改进Parzen窗方法估计基音概率密度,兼顾了基音统计分布模型在低频段的高分辨率和高频段的平滑;提出利用不同性别的基音分布规律的性别区分算法,对于长句可以达到98%的识别率;通过分析基音均值、方差、统计分布模型在性别上的差异,对基音参数进行基于性别差异的规整;引入规整后的基音均值和基音方差,以及基音统计分布模型距离作为情感特征参数;最后利用K最近邻方法对汉语情感语料进行识别。利用常规方法提取的参数最后得到的识别率为73.8%,而使用经过性别差异规整的基音参数和基音统计分布距离的识别率提高到81%。 相似文献
9.
基于数学形态滤波的语音信号基音特征提取 总被引:4,自引:1,他引:3
数学形态滤波是一种关于信号形状处理的非线性变换,它能简化信号、消除较小分量而保留信号的基本形状特征.本文基于数学形态滤波方法提出了两个分别在时域和频域提取语音信号基音周期的方案,在频域提取基音周期的同时还能提取出语音信号的谱包络。它们具有简单、直观和计算效率高等特点。由于数学形态滤波运算是并行的、局部的,新方案适于并行化处理和易于硬件化实现。实验结果表明,选择合理的数学形态滤波参数以及线性预测编码参数,能获得准确的语音信号基音特征。 相似文献
10.
基于Hilbert-Huang变换的基音周期提取方法 总被引:6,自引:0,他引:6
提出了一种基于Hilbert-Huang变换的语音信号基音周期提取方法。该方法无须对语音信号进行分帧截断。语音信号直接进行Hilbert-Huang变换后,通过基音频率搜索处理得到基音频率及其随时间的变化。实验结果表明,与传统的基音周期提取方法相比,该方法既能真实描述语音信号的非平稳非线性特性,又能提高基音周期提取的准确性和分辨率。 相似文献
11.
随着计算机技术的发展,语音信号处理作为人机交互的重要渠道,其在复杂噪声环境下的特征值检测算法直接关系到计算机的运算效率。基音周期是语音特征值提取的重要参数之一。针对传统基音检测算法在噪声环境下检测精度低的问题,提出了一种基于自适应提升小波变换加权线性预测误差自相关函数的基音检测算法。该方法用多级提升小波近似系数加权求和的方法来弥补自相关函数随着时间延迟量的增加幅值衰减的缺陷;用线性预测误差自相关函数的方法来抑制共振峰的干扰,然后将两种方法结合来突出基音周期处的峰值。实验结果表明,与传统的自相关函数法和小波加权法相比,该方法能有效减弱共振峰的影响,突出基音周期处的峰值,提高基音周期检测精度,鲁棒性更好。 相似文献
12.
13.
长时语音特征在说话人识别技术上的应用 总被引:1,自引:0,他引:1
本文除介绍常用的说话人识别技术外,主要论述了一种基于长时时频特征的说话人识别方法,对输入的语音首先进行VAD处理,得到干净的语音后,对其提取基本时频特征。在每一语音单元内把基频、共振峰、谐波等时频特征的轨迹用Legendre多项式拟合的方法提取出主要的拟合参数,再利用HLDA的技术进行特征降维,用高斯混合模型的均值超向量表示每句话音时频特征的统计信息。在NIST06说话人1side-1side说话人测试集中,取得了18.7%的等错率,与传统的基于MFCC特征的说话人系统进行融合,等错率从4.9%下降到了4.6%,获得了6%的相对等错率下降。 相似文献
14.
提出了一种基于独立分量分析(ICA)的语音信号鲁棒特征提取算法,用以解决在卷积噪声环境下语音信号的训练与识别特征不匹配的问题。该算法通过短时傅里叶变换将带噪语音信号从时域转换到频域后,采用复值ICA方法从带噪语音的短时谱中分离出语音信号的短时谱,然后根据所得到的语音信号短时谱计算美尔倒谱系数(MFCC)及其一阶差分作为特征参数。在仿真与真实环境下汉语数字语音识别实验中,所提算法相比较传统的MFCC其识别正确率分别提升了34.8%和32.6%。实验结果表明基于ICA方法的语音特征在卷积噪声环境下具有良好的鲁棒性。 相似文献
15.
文本无关说话人识别的全特征矢量集模型及互信息评估方法 总被引:1,自引:0,他引:1
提出了一种文本无关说话人识别的全特征矢量集模型及互信息评估方法,该模型通过对一组说话人语音数据在特征空间进行聚类而形成,全面地反映了说话人语音的个性特征。对于说话人语音的似然度计算与判决,则提出了一种互信息评估方法,该算法综合分析距离空间和信息空间的似然度,并运用最大互信息判决准则进行识别判决。实验分析了线性预测倒谱系数(LPCC)和Mel频率倒谱系数(MFCC)两种情况下应用全特征矢量集模型和互信息评估算法的说话人识别性能,并与高斯混合模型进行了比较。结果表明:全特征矢量集模型和互信息评估算法能够充分反映说话人语音特征,并能够有效评估说话人语音特征相似程度,具有很好的识别性能,是有效的。 相似文献
16.
本文基于人耳听觉模型提出了一种鲁棒性的话者特征参数提取方法。该种方法中,首先由Gamma tone听觉滤波器组和Meddis内耳毛细胞发放模型获得表征听觉神经活动特性的听觉相关图。由听觉神经脉冲发放的锁相特性和双声抑制特性,我们将听觉相关图每个频带中的幅值最大频率分量作为表征当前频带特性的特征参量,于是所有频带的特征参量便构成了表征当前语音段特性的特征矢量;我们采用DCT交换进一步消除各个特征参量之间的相关性,压缩特征矢量的维数。有效性试验表明,该种特征矢量基本上反映了输入语音的谱包络特性;抗噪声性能实验表明,在高斯白噪声和汽车噪声干扰下,这种特征参数比LPCC和MFCC有较小的相对失真;基于矢量量化的文本无关话者辨识表明,对于三种类型的噪声干扰该种特征参数在低信噪比下都获得了较好的识别结果。 相似文献
17.
常用的梅尔倒谱系数结合高斯混合模型(MFCC+GMM)方法的鸟鸣声识别技术难适应噪声环境,模型难以收敛,且计算复杂度高。该文提出一种融合声纹信息的能量谱图的鸟类识别方法 (VPS-BR),该方法利用鸟类鸣声在能量谱图上所表现的多维差异性,定量识别鸣声声纹特征。通过对分贝能量进行颜色映射得到能量谱图,提取其视觉特征所表达的声学特征,分析归纳得到鸟类特有鸣声模式。在特征提取步骤中,选用识别速度快的局部二值模式、识别鲁棒性高的方向梯度直方图两个参数表征鸟鸣声谱图的边缘声纹;在识别步骤中,用局部二值模式和方向梯度直方图两种特征分别与支持向量机、K最近邻和随机森林3种分类器算法进行两两组合构建识别模型测试。对15种原始带噪鸟类鸣声数据集进行交叉验证,VPS-BR模型的平均识别率比MFCC+GMM组合模型高出11.3%,方向梯度直方图特征与K最近邻分类器的组合模型识别率达90.5%,表现出较好的抗噪性能和识别性能。最后针对样本数据集缺乏问题,使用生成对抗网络进行图像增强,进一步将识别率提升1.48%。 相似文献
18.
针对智能机器人在非特定人语音识别中识别率偏低的问题,提出了一种双门限的端点检测算法,精确地检测出了语音端点,对分形维数和Mel频率倒谱系数(MFCC)进行结合,同时基于隐马尔可夫(HMM)模型,提出了智能机器人命令识别系统;在实验室环境下,利用Cool Edit软件录制了5男5女的语音,采样率为8 kHz,精度为16位,内容为5个命令词,每个词均被采集6次,将每人的前3次发音作为模板语音,后3次发音作为测试语音,实验结果表明,系统识别率可以达到85%以上,MFCC与分形维数混合的语音特征参数的算法提高了系统识别率,优化了系统性能;该方法用于非特定人语音智能识别是可行的、有效的。 相似文献
19.