共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
长时语音特征在说话人识别技术上的应用 总被引:1,自引:0,他引:1
本文除介绍常用的说话人识别技术外,主要论述了一种基于长时时频特征的说话人识别方法,对输入的语音首先进行VAD处理,得到干净的语音后,对其提取基本时频特征。在每一语音单元内把基频、共振峰、谐波等时频特征的轨迹用Legendre多项式拟合的方法提取出主要的拟合参数,再利用HLDA的技术进行特征降维,用高斯混合模型的均值超向量表示每句话音时频特征的统计信息。在NIST06说话人1side-1side说话人测试集中,取得了18.7%的等错率,与传统的基于MFCC特征的说话人系统进行融合,等错率从4.9%下降到了4.6%,获得了6%的相对等错率下降。 相似文献
3.
汉语普通话双基频检测 总被引:1,自引:0,他引:1
鉴于传统方法在语音双基频检测方面的局限性,本文提出了汉语双基频检测(DDPM)的方法.该方法利用混合汉语语音在短时帧之内的准周期性,经搜索得到每一帧内的双基频候选点,再根据正常情况下人的发音在相邻帧内基频不产生突变的特点,实现了双基频检测.应用此方法,在纯净与加噪的情形下,对汉语四种声调单音节的各种组合分别进行了检测实验,检测效果十分理想.新方法也可以直接应用到连续语音双基频的检测. 相似文献
4.
提出了一种融合梅尔谱增强与特征解耦的噪声鲁棒语音转换模型,即MENR-VC模型。该模型采用3个编码器提取语音内容、基频和说话人身份矢量特征,并引入互信息作为相关性度量指标,通过最小化互信息进行矢量特征解耦,实现对说话人身份的转换。为了改善含噪语音的频谱质量,模型使用深度复数循环卷积网络对含噪梅尔谱进行增强,并将其作为说话人编码器的输入;同时,在训练过程中,引入梅尔谱增强损失函数对模型整体损失函数进行了改进。仿真实验结果表明,与同类最优的噪声鲁棒语音转换方法相比,所提模型得到的转换语音在语音自然度和说话人相似度的平均意见得分方面,分别提高了0.12和0.07。解决了语音转换模型在使用含噪语音进行训练时,会导致深度神经网络训练过程难以收敛,转换语音质量大幅下降的问题。 相似文献
5.
一种定征复合板材粘接层性质的非线性超声兰姆波方法 总被引:5,自引:3,他引:2
借助于兰姆波频散曲线及导波激发的模式展开分析方法,对基频兰姆波时域信号及二次谐波时域信号的发生过程进行了直观的论述。结合Ritec-SNAP系统的测量功能,详细分析了二次谐波时域脉冲包络积分表达式的物理意义;该积分表达式可表征基频兰姆波时域脉冲传播过程中的二次谐波发生效率,以及基频与二倍频兰姆波模式之间的频散程度。在基频与二倍频兰姆波相速度相等(或近似相等)的频率附近,实验观察到显著的且无模式混叠的二次谐波信号,显示出在兰姆波的传播过程中的确可存在强烈的非线性效应。对于三种不同粘接情形的复合板材,实验结果表明,采用本文引入的非线性兰姆波应力波因子,结合二次谐波幅频曲线峰值所对应的频率值,可有效地对板材粘接层性质进行表征。 相似文献
6.
提出在参数的提取过程中用不同的感知规整因子对不同人的参数归一化,从而实现在非特定人语音识别中对不同人的归一化处理。感知规整因子是基于声门上和声门下之间耦合作用产生声门下共鸣频率来估算的,与采用声道第三共振峰作为基准频率的方法比较,它能较多的滤除语义信息的影响,更好地体现说话人的个性特征。本文提取抗噪性能优于Mel倒谱参数的感知最小方差无失真参数作为识别特征,语音模型用经典的隐马尔可夫模型(HMM)。实验证明,本文方法与传统的语音识别参数和用声道第三共振峰进行谱规整的方法相比,在干净语音中单词错误识别率分别下降了4%和3%,在噪声环境下分别下降了9%和5%,有效地改善了非特定人语音识别系统的性能。 相似文献
7.
在将耳语音转换为正常音时,为了研究降维后语音特征对耳语音转换的影响,分别对耳语音和正常音谱包络进行自适应编码以提取耳语音和正常音的低维特征,然后使用BP网络建立耳语音和正常音低维谱包络特征之间的映射关系以及正常音基频和耳语音低维谱包络特征之间的关系。转换时,根据耳语音低维谱包络特征获得对应正常音的低维谱包络特征和基频,对低维谱包络特征进行解码后获得对应的正常音谱包络。实验结果表明,采用此方法转换后的语音与正常音之间的倒谱距离相比高斯混合模型方法下降了10%,转换后语音的自然度和可懂度都有所提高。 相似文献
8.
通过测量谐波复合音的基频辨别阈,探讨中等"高次谐波"的音高感知是否依赖于谐波的可分离性,以及掩蔽音对实验结果的影响。实验方法:在目标音单独存在或目标音与掩蔽音混合时,将刺激通过高、中、低三个带通滤波器以获得不同的谐波可分离度。实验刺激设计为5种基频差异和4种相位组合。五名被试均为年轻人,纯音听阈≤15 dB HL。研究结果发现:谐波复合音的基频辨别阈随着信号频段的上移而增大;目标音和掩蔽音的基频差异对基频辨别阈有显著影响;但相位影响不显著。结论:谐波的可分离性对基频辨别阈有显著影响,但中等"高次谐波"的音高感知不依赖于可分离性;混合音的大部分音高感知结果与兴奋模式的峰值大小密切相关。 相似文献
9.
10.
11.
提出了一种联合深度编解码神经网络和时频掩蔽估计的语音增强方法。该方法利用深度编解码网络估计时频掩蔽表示,并联合带噪语音的幅度谱学习带噪语音与纯净语音幅度谱之间的非线性映射关系。深度编解码网络采用卷积-反卷积网络结构。在编码端,利用卷积网络的局部感知特性,对带噪语音的时频域结构特征进行建模,提取语音特征,同时抑制背景噪声。在解码端,利用编码端提取到的语音特征逐层恢复局部细节信息并重构语音信号。同时,在编解码端对应层之间引入跳跃连接,以减少由于池化和全连接操作导致的低层细节信息丢失的问题。在TIMIT语音库和不完全匹配噪声集下进行仿真实验,实验结果表明,该方法可以有效抑制噪声,且能较好地恢复出语音细节成分。 相似文献
12.
13.
针对低信噪比说话人识别中缺失数据特征方法鲁棒性下降的问题,提出了一种采用感知听觉场景分析的缺失数据特征提取方法。首先求取语音的缺失数据特征谱,并由语音的感知特性求出感知特性的语音含量。含噪语音经过感知特性的语音增强和对其语谱的二维增强后求解出语音的分布,联合感知特性语音含量和缺失强度参数提取出感知听觉因子。再结合缺失数据特征谱把特征的提取过程分解为不同听觉场景进行区分地分析和处理,以增强说话人识别系统的鲁棒性能。实验结果表明,在-10 dB到10 dB的低信噪比环境下,对于4种不同的噪声,提出的方法比5种对比方法的鲁棒性均有提高,平均识别率分别提高26.0%,19.6%,12.7%,4.6%和6.5%。论文提出的方法,是一种在时-频域中寻找语音鲁棒特征的方法,更适合于低信噪比环境下的说话人识别。 相似文献
14.
15.
全固态腔内SHG/SFG多波长黄光激光器 总被引:1,自引:0,他引:1
报道了一种利用大功率激光二极管端面抽运Nd…YAG激光晶体产生基频光,并通过非线性晶体的腔内倍频(SHG)与和频(SFG),实现多个二次谐波同时连续输出的多波长黄光激光器。将Nd…YAG晶体的1112.1、1115.9、1122.7nm谱线作为基频光,利用LBO和BIBO进行非线性光学频率变换,同时获得了三个倍频光及三个和频光激光输出。从理论上对基频光同时受激跃迁和非线性频率变换相位匹配进行了分析。实验结果与理论分析表明,当基频光的性能相对接近时,合理地选择性能较好的非线性晶体对基频光同时进行倍频和和频是获得全固态多波长激光器的一种实用方法,合理地设计激光器谐振腔能够提高激光器的稳定性。 相似文献
16.
基于声源方位信息和非线性时频掩蔽的语音盲提取算法 总被引:2,自引:0,他引:2
针对欠定卷积混合的语音信号模型,提出一种基于声源方位信息和非线性时频掩蔽的语音盲提取算法。首先对低频段混合语音信号进行时频分析估计瞬时相对时延(ITD)并采用势函数聚类分析方法估计出声源个数及其ITD,接着锁定目标提取准确的目标语音方位信息,最后利用独立语音在时频域上的近似W一分离正交性,采用非线性时频掩蔽的方法提取目标语音。仿真实验表明,该方法能锁定任意感兴趣目标方位,能有效提取目标语音,文中实验条件下信噪比增益平均达9.5 dB。 相似文献
17.
斯通利波的频散特性常用于反演横向各向同性地层的各向异性。该文重点对斯通利波频散曲线随井孔和地层弹性模量相关参数的变化规律进行了探讨,提出了频散曲线的快速插值计算方法,经过误差分析验证了插值频散计算的可行性。据此提出了通过对参数大间隔取值建立理论频散数值表,插值计算不同各向异性参数的频散曲线,对比波形频散快速反演横向各向同性地层各向异性的方法。基于实轴积分法计算的横向各向同性地层井孔声场分别进行了插值频散快速反演和传统方法反演,对比结果证实了该文提出的快速反演方法的准确高效性,并且对数据加噪后验证了快速反演方法的抗噪性。 相似文献
18.
19.
20.
基于可调谐激光光谱吸收法的红外气体检测,为了从差分信号中有效提取出一次和二次谐波信号,研发了一种谐波信号正交锁相放大器.采用正交锁相放大及谐波检测原理,利用Simulink软件平台构建了模拟实验系统,对其功能做了仿真和验证.采用数字信号处理器作为核心控制器,设计并制作出了谐波信号锁相放大器的系统实物,它主要由90°移相器、两路模拟乘法器、两路低通滤波器、差分信号放大器、模数转换器等构成.实验中,首先利用幅度可调的标准正弦信号作为待测信号,对锁相放大器的输出信号幅度与标准正弦信号的幅度做实验测量与对比,二者线性拟合优度高达0.999 94,最大误差小于4%,具有良好线性度;其次,将模拟吸收产生的差分信号作为待测信号,利用基频方波和二倍频方波分别作为参考信号,提取谐波信号,因二次谐波信号微弱易受噪音干扰,其误差在5%以内,一次谐波最大误差小于3.5%.系统具有良好的稳定性和性价比,在红外气体检测中具有较好的应用前景. 相似文献