首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
一种基于听觉特性的语音失真测度方法   总被引:3,自引:0,他引:3  
提出了一种基于听觉特性的语音失真测度方法──感知谱失真 PSD(Perceptual Spectrum  Distortion)测度,该测度方法通过模拟人的听觉特性把语音短时频谱转变为符合听觉特性的感知频谱,再以感知谱为基础来度量语音失真程度。经过对不同质量的语音进行仿真实验以及与Itakura测度方法作对比实验,结果表明PSD测度是一种与语音质量主观评价一致性较好的语音失真测度方法。  相似文献   

2.
针对语音无线通信中带宽资源受限的问题,提出基于压缩采样的低速率语音编码算法。以基尼系数为指标,比较不同稀疏变换域下语音信号的稀疏性,分析常见重构算法对语音信号压缩采样观测信号的重构特性。对标准耳蜗滤波器——伽马啁啾滤波器组的参数进行研究,并以梯度投影稀疏重建(GPSR)算法重构语音信号。利用语音质量感知评估(PESQ)、信噪比和主观听觉测试,对编解码后的合成语音信号进行了质量评估。实验表明,基于压缩感知的语音编码器以4 kbps的低速率对语音进行编码时,PESQ得分可达到3.16,计算复杂度相对较低,可以用于实际的语音编码环境。  相似文献   

3.
基于修正Mel域掩蔽模型和无语音概率的耳语音增强   总被引:1,自引:0,他引:1  
提出了一种基于修正Mel域听觉掩蔽模型和无语音概率的耳语音增强方法。该方法根据耳语音的发音特点对Mel频率进行修正,对每一帧耳语音信号进行Mel域频带滤波,同时通过无语音概率(SAP)动态地确定每个频带的听觉掩蔽阈值,对不同的听觉掩蔽阈值自适应地调整谱减系数来进行耳语音增强。对增强后的耳语音进行客观和主观测试,结果表明,该方法与其它谱减法相比,能将残留噪声和背景噪声控制在人耳掩蔽阈值下,取得更小的语音失真,主观听觉也得到了很大的改善。   相似文献   

4.
蒋斌  匡正  吴鸣  杨军 《声学学报》2012,37(6):659-666
实验研究了帧长对汉语音段反转言语可懂度的影响。实验结果表明,帧长在64 ms以下,汉语音段反转言语具有较高的可懂度;帧长在64~203 ms之间,可懂度随帧长的增加逐渐降低;帧长在203 ms以上,可懂度为0。在帧长8 ms时,汉语的声调失真导致可懂度下降。原始语音信号和音段反转言语的调制谱的分析表明,调制谱失真大小和可懂度密切相关。因此,用原始语音信号和音段反转言语的窄带包络间的归一化相关值可以衡量调制谱失真大小,基于语音的语言传输指数法计算的客观值和实验结果显著相关(r=0.876,p<0.01)。研究表明,语言可懂度与窄带包络有关,音段反转言语的可懂度和保留原始语音信号的窄带包络密切相关。   相似文献   

5.
提出采用正弦模型改善患者高频听觉的非线性降频方法。正弦模型语音分解得到的幅度、频率和相位是算法三个主要的处理参数。为了避免谱失真,将语音频谱按倍频程划分为6个部分。最接近并低于患者门限频率的部分,只做幅度放大处理。按照不同频段对于语音理解度的贡献程度,将患者门限频率以上的频率段压缩并转移到患者的可听频段,并将对应相位信息变为最接近的对应低频相位。在本研究中,10个受试者进行了语音理解度测试。测试结果显示,经过训练后,患者的平均理解率至少提高45%。下一步的研究应增加受试者数量,并增加对患者的听损情况的详细分析,从而设计出更合理,更细致的降频助听算法。   相似文献   

6.
本文针对语音信号稀疏表示及压缩感知问题,将听觉感知引入稀疏系数筛选过程,用掩蔽阈值筛选重要系数,以得到更符合听觉感受的语音稀疏表示。通过对一帧浊音信号分别采用掩蔽阈值和能量阈值方法进行系数筛选对比实验,结果表明掩蔽阈值法具有更好的稀疏表示效果。为验证听觉感知对语音压缩感知性能的影响,与能量阈值法对照对测试语音进行压缩感知观测和重构,通过压缩比、信噪比、主观平均意见分等主客观指标评价其性能,结果表明,掩蔽阈值法可有效地提高压缩比且保证重构语音具有较高的主观听觉质量。  相似文献   

7.
针对低信噪比说话人识别中缺失数据特征方法鲁棒性下降的问题,提出了一种采用感知听觉场景分析的缺失数据特征提取方法。首先求取语音的缺失数据特征谱,并由语音的感知特性求出感知特性的语音含量。含噪语音经过感知特性的语音增强和对其语谱的二维增强后求解出语音的分布,联合感知特性语音含量和缺失强度参数提取出感知听觉因子。再结合缺失数据特征谱把特征的提取过程分解为不同听觉场景进行区分地分析和处理,以增强说话人识别系统的鲁棒性能。实验结果表明,在-10 dB到10 dB的低信噪比环境下,对于4种不同的噪声,提出的方法比5种对比方法的鲁棒性均有提高,平均识别率分别提高26.0%,19.6%,12.7%,4.6%和6.5%。论文提出的方法,是一种在时-频域中寻找语音鲁棒特征的方法,更适合于低信噪比环境下的说话人识别。   相似文献   

8.
王玥  李平  崔杰 《声学学报》2013,38(4):501-508
为了在噪声抑制和语音失真中之间寻找最佳平衡,提出了一种听觉频域掩蔽效应的自适应β阶贝叶斯感知估计语音增强算法,以期提高语音增强的综合性能。算法利用了人耳的听觉掩蔽效应,根据计算得到的频域掩蔽阈自适应调整β阶贝叶斯感知估计语音增强算法中的β值,从而仅将噪声抑制在掩蔽阈之下,保留较多的语音信息,降低语音失真。并分别用客观和主观评价方式,对所提出的算法的性能进行了评估,并与原来基于信噪比的自适应β阶贝叶斯感知估计语音增强算法进行了比较。结果表明,频域掩蔽的β阶贝叶斯感知估计方法的综合客观评价结果在信噪比为-10 dB至5 dB之间时均高于基于信噪比的自适应β阶贝叶斯感知估计语音增强算法。主观评价结果也表明频域掩蔽的β阶贝叶斯感知估计方法能在尽量保留语音信息的同时,较好的抑制背景噪声。   相似文献   

9.
基于听觉掩蔽效应和Bark子波变换的语音增强   总被引:22,自引:3,他引:19  
陶智  赵鹤鸣  龚呈卉 《声学学报》2005,30(4):367-372
提出了一种适用于低信噪比下的提高语音的听觉效果的语音增强方法。该方法在谱减法的基础上有两个特点:首先减参数是根据人耳听觉掩蔽效应提出的且是自适应的;其次采用了与人耳听觉系统特性更为适应的Bark子波变换方法对增强前后的语音进行分析。对该算法进行了客观和主观测试,结果表明:与谱减法相比对低信噪比的语音信号,(1)能更好地抑制残留噪声和背景噪声,(2)增强后的语音具有更好的清晰度和可懂度。  相似文献   

10.
提出了一种采用感知语谱结构边界参数(PSSB)的语音端点检测算法,用于在低信噪比环境下的语音信号预处理。在对含噪语音进行基于听觉感知特性的语音增强之后,针对语音信号的连续分布特性与残留噪声的随机分布特性之间的不同点,对增强后语音的时-频语谱进行二维增强,从而进一步突出连续分布的纯净语音的语谱结构。通过对增强后语音语谱结构的二维边界检测,提出PSSB参数,并用于端点检测。实验结果表明,在白噪声-10 dB到10 dB的各种信噪比环境下,采用PSSB参数的端点检测算法,相对于其它端点检测算法,更有效地检测出语音的端点。在-10 dB的极低信噪比下,提出的方法仍然有75.2%的正确率。采用PSSB参数的端点检测算法,更适合于低信噪比白噪声环境下的语音端点检测。   相似文献   

11.
基于神经网络的语音谱失真测度研究   总被引:1,自引:1,他引:1  
提出了基于神经网络的语音谱失真测度概念。利用前向神经网络,包括多层感知器和径向基函数网络,对多维非线性函数的逼近原理,使得谱失真测度函数具备了表现人耳听觉系统的主观感知行为的能力。结合语音质量客观评价应用,我们以在大量的失真条件下得到的主观评价结果作为期望值对该网络进行训练。统计相关分析表明,基于神经网络谱失真测度的客观评价方法的主客观评价的相关性,较之传统欧氏距离以及加权欧氏距离都有了显著的提高,并具有更高的鲁棒性.该方法还具有技术独立性.  相似文献   

12.
基于频域幅度谱数据重建电磁脉冲时域波形   总被引:6,自引:3,他引:6       下载免费PDF全文
 由频域幅度谱数据重建时域脉冲波形,是电磁脉冲效应及传感器标定研究中经常遇到的问题。根据最小相位原理,利用倒谱技术,编程实现了从频域幅度谱数据构造相位信息,进而反演时域脉冲响应波形。对几类函数波形和一组实测高空核爆电磁脉冲(HEMP)波形的验证结果表明,HEMP波形、余(正)弦阻尼振荡波形等信号的重建波形与原始波形符合很好。对于非最小相位信号,重建波形的前(后)沿、峰值等细节参数有一定差别,但也能给出一些波形、累积能量、幅值量级等方面的标志信息。  相似文献   

13.
在波形网络中融合相位信息的骨导语音增强   总被引:3,自引:0,他引:3       下载免费PDF全文
已有骨导语音增强算法重点关注语音幅度谱增强,在波形合成时会因为相位不匹配导致语音质量下降.为解决该问题,提出了一种融合相位信息的波形网络(WaveNet)模型实现骨导语音增强波形生成.该方法以频带扩展WaveNet为基础,融合骨导语音相位谱信息与增强的语音幅度谱作为模型的条件特征,根据融合特征生成增强语音波形,实现了相...  相似文献   

14.
用于无监督语音降噪的听觉感知鲁棒主成分分析法   总被引:2,自引:0,他引:2       下载免费PDF全文
闵刚  邹霞  韩伟  张雄伟  谭薇 《声学学报》2017,42(2):246-256
针对现有稀疏低秩分解语音降噪方法对人耳听觉感知特性应用不充分、语音失真易被感知的问题,提出了一种用于语音降噪的听觉感知鲁棒主成分分析法。由于耳蜗基底膜对于频率感知具有非线性特性,该方法采用耳蜗谱图作为语噪分离的基础。此外,选用符合人耳听觉感知特性的板仓-斋田距离度量作为优化目标函数,在稀疏低秩建模过程中引入非负约束以使分解分量更符合实际物理含义,并在交替方向乘子法框架下推导了具有闭合解形式的迭代优化算法。文中方法在语音降噪时是完全无监督的,无需预先训练语音或噪声模型。多种类型噪声和不同信噪比条件下的仿真实验验证了该方法的有效性,噪声抑制效果较目前同类算法更为显著,且降噪后语音的可懂度和总体质量有所提高、至少相当。   相似文献   

15.
听觉计算模型在鲁棒性语音识别中的应用   总被引:3,自引:1,他引:2  
利用听觉感知机理,建立一个基于听觉感知机理的语音信号特征提取模型。本文由两部分组成,一部分是在传统听觉计算模型基础上提出听觉倒谱特征AFCC(AnditoryFrequencyCepstralCoefficient)的提取方法,这样既压缩了特征维数,减小计算量,又使各个特征维之间相互独立,满足HMM模型的要求。并且根据听觉神经中枢的长时整合特性,文中提出了用低通滤波模型来模拟这种功能。结合该低通模型,提取的语音信号的听觉倒谱特征在HMM框架下取得较好的鲁律性。另一部分在研究听觉侧抑制机理的基础上,提出一个简单有效的听觉侧抑制处理模型。美尔倒谱特征MFCC谱特征经过该侧抑制模型处理,得到侧抑制美倒谱特征MFCCI,实验表明,该新特征MFCCI鲁棒性能比MFCC有大大提高。听觉倒谱特征AFCC经过该侧抑制处理得到侧抑制听觉倒谱特征AFCCI,实验表明,该新特征AFCCI鲁律性能比AFCC有大大提高。  相似文献   

16.
采用L1/2稀疏约束的梅尔倒谱系数语音重建方法   总被引:1,自引:0,他引:1       下载免费PDF全文
周健  刘荣敏  窦云峰  路成  陶亮 《声学学报》2018,43(6):991-999
提出了一种利用L1/2稀疏约束从梅尔倒谱系数重建语音时域信号方法。从梅尔倒谱系数估计语音幅度谱是一个欠定问题,现有的方法均采用幅度谱最小均方误差估计或采用L1正则化进行幅度谱的稀疏约束。相比于L1正则化模型,L1/2的稀疏约束特性更强,为此,本文在从梅尔倒谱系数估计语音幅度谱时引入L1/2正则化约束,并利用求解的稀疏幅度谱估计相位谱,最后利用估计的频谱重建时域语音信号。实验结果表明,与幅度谱最小均方误差法相比,本文算法所估计出的语音信号具有更高的语音质量;在噪声环境下进行语音重建实验,与L1正则化幅度谱估计方法相比,本文算法重建的语音质量更好,表现出更好抗噪性。   相似文献   

17.
提出了一种两阶段复数谱卷积循环网络(CRN)的立体声回声消除(SAEC)算法,该算法无需对立体声信号进行去相关,因而能够在保证立体声音质和空间感的同时,解决自适应滤波SAEC算法非唯一解问题。所提算法采用两个阶段进行回声消除,第一阶段根据传声器接收信号和参考信号估计回声信号,第二阶段将估计回声信号作为先验信息,联合传声器接收信号作为输入特征,估计近端语音。相对于单阶段CRN算法,该方法能够提高网络对回声和近端语音的区分度,有助于近端语音的提取。另外,网络的输入特征和训练目标均采用复数谱,降低了近端语音的相位估计误差,因而可以进一步提升算法性能。实验表明,基于两阶段复数谱CRN的SAEC算法在单端讲话时的回声抑制量和双端讲话时的语音质量都明显优于传统算法以及单阶段CRN算法。   相似文献   

18.
在充分考虑人耳听觉特性和噪声统计特性的基础上,提出一种时频结合Bark尺度自适应阈值的语音消噪算法,在Bark频域上自适应调整增强系数可以较准确地进行阈值判定。仿真实验验证,时频结合算法在低信噪比输入情况下较传统语音降噪方法具有明显优势,其在消除高斯白噪声的同时有效降低了语音损失,可获得最大信噪比,谱失真测度最小,增强语音的MOS(Mean Opinion Score)评分明显提高,具有较好的听觉效果。  相似文献   

19.
提出在参数的提取过程中用不同的感知规整因子对不同人的参数归一化,从而实现在非特定人语音识别中对不同人的归一化处理。感知规整因子是基于声门上和声门下之间耦合作用产生声门下共鸣频率来估算的,与采用声道第三共振峰作为基准频率的方法比较,它能较多的滤除语义信息的影响,更好地体现说话人的个性特征。本文提取抗噪性能优于Mel倒谱参数的感知最小方差无失真参数作为识别特征,语音模型用经典的隐马尔可夫模型(HMM)。实验证明,本文方法与传统的语音识别参数和用声道第三共振峰进行谱规整的方法相比,在干净语音中单词错误识别率分别下降了4%和3%,在噪声环境下分别下降了9%和5%,有效地改善了非特定人语音识别系统的性能。   相似文献   

20.
基于多窗谱的心理声学语音增强   总被引:7,自引:2,他引:5  
吴红卫  吴镇扬  赵力 《声学学报》2007,32(3):275-281
与传统的周期谱图相比,多窗谱具有更小的估计方差。从含噪语音的多窗谱对噪声及噪声与含噪语音之比(NNSR)进行估计,用基于NNSR的幅度谱减实现用于计算人耳掩蔽阈值的预增强语音,用集成了人耳掩蔽阈值的心理声学加权规则实现最终的增强语音。考虑到多窗谱的特点对掩蔽偏移量进行了修正,修正后的重建语音,其客观测量指标修正巴克谱测度比修正前有一定的改进。再对心理声学加权规则作最大值小于1的限制,则输入信噪比越大(0 dB以上),分段信噪比和总体信噪比提高得越多。非正式试听表明重建语音失真较小,背景噪声大大降低,且没有音乐噪声。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号