首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
一种基于听觉特性的语音失真测度方法   总被引:3,自引:0,他引:3  
提出了一种基于听觉特性的语音失真测度方法──感知谱失真 PSD(Perceptual Spectrum  Distortion)测度,该测度方法通过模拟人的听觉特性把语音短时频谱转变为符合听觉特性的感知频谱,再以感知谱为基础来度量语音失真程度。经过对不同质量的语音进行仿真实验以及与Itakura测度方法作对比实验,结果表明PSD测度是一种与语音质量主观评价一致性较好的语音失真测度方法。  相似文献   

2.
汉语通信系统客观音质评价方法   总被引:5,自引:0,他引:5  
提出一种使用语音频谱动态特性的倒谱距离测量对通信系统或通信设备进行客观音质评价方法.它是在对语音通信中主、客观音质评价的研究并在使用LPC倒谱距离评价普通话语音质量的基础上发展起来的。语音频谱动态特性是利用倒谱系数对时间的回归分析来表示的.这种方法中,使用倒谱系数,回归系数和能量三个参数计算距离。比较了四种距离估算方法和主观音质评价(MOS)的相关性,结果表明该方法的综合评价与MOS得分的相关性最好,相关系数为0.954,取得了客观评价方法与主观评价方法一致的结果。  相似文献   

3.
基于修正Mel域掩蔽模型和无语音概率的耳语音增强   总被引:1,自引:0,他引:1  
提出了一种基于修正Mel域听觉掩蔽模型和无语音概率的耳语音增强方法。该方法根据耳语音的发音特点对Mel频率进行修正,对每一帧耳语音信号进行Mel域频带滤波,同时通过无语音概率(SAP)动态地确定每个频带的听觉掩蔽阈值,对不同的听觉掩蔽阈值自适应地调整谱减系数来进行耳语音增强。对增强后的耳语音进行客观和主观测试,结果表明,该方法与其它谱减法相比,能将残留噪声和背景噪声控制在人耳掩蔽阈值下,取得更小的语音失真,主观听觉也得到了很大的改善。   相似文献   

4.
针对目前有监督语音增强忽略了纯净语音、噪声与带噪语音之间的幅度谱相似性对增强效果影响等问题,提出了一种联合精确比值掩蔽(ARM)与深度神经网络(DNN)的语音增强方法。该方法利用纯净语音与带噪语音、噪声与带噪语音的幅度谱归一化互相关系数,设计了一种基于时频域理想比值掩蔽的精确比值掩蔽作为目标掩蔽;然后以纯净语音和噪声幅度谱为训练目标的DNN为基线,通过该DNN的输出来估计目标掩蔽,并对基线DNN和目标掩蔽进行联合优化,增强语音由目标掩蔽从带噪语音中估计得到;此外,考虑到纯净语音与噪声的区分性信息,采用一种区分性训练函数代替均方误差(MSE)函数作为基线DNN的目标函数,以使网络输出更加准确。实验表明,区分性训练函数提升了基线DNN以及整个联合优化网络的增强效果;在匹配噪声和不匹配噪声下,相比于其它常见DNN方法,本文方法取得了更高的平均客观语音质量评估(PESQ)和短时客观可懂度(STOI),增强后的语音保留了更多语音成分,同时对噪声的抑制效果更加明显。   相似文献   

5.
语音质量的客观评价可以代替昂贵的人工评分,但是目前客观指标的计算通常需要纯净的参考语音,这在许多实际声学系统中很难获得。为此提出了一种融合辅助目标学习和卷积循环网络(CRN)的非侵入式语音质量评价算法。为降低算法的复杂度,算法采用基于仿人耳听觉特性滤波器的Bark频率倒谱系数(BFCCs)作为CRN的输入。算法首先构建一个卷积神经网络(CNN)从BFCCs中提取帧级特征。然后,构建双向的长短记忆网络,在帧级特征中建模长期的时间依赖性和序列特征。最后,利用自注意力机制自适应地从帧级特征中筛选出有用信息,将其整合至话语层面的特征中,并将这些话语级特征映射为客观得分。为改善质量评测的有效性,算法采用多任务训练策略,引入语音激活检测(VAD)作为辅助学习目标。基于开源数据库的实验显示,与其他非侵入式算法相比,提出的算法和平均主观意见分(MOS)具有更好的相关性。而且,算法参数规模较小且对ITU-T P.808发布的带有主观MOS的失真语音数据库具有良好的泛化能力,接近语音质量感知评估(PESQ)指标的精度。   相似文献   

6.
解伟超  张玲华 《声学学报》2014,39(1):130-136
提出一种基于自组织聚类,并且利用改进粒子群算法确定转换模型参数的语音转换方法.该方法首先基于自组织特征映射网络对特征参数进行聚类,再对每个聚类分别建立转换规则,并且利用柯西变异的粒子群算法确定每个转换规则中的模型参数.与传统的单一转换规则相比,聚类后建立的多转换规则以及利用改进粒子群算法确定参数能够提高映射关系的准确度,避免参数陷入局部最优点。以女声转男声为例,主观测试表明该方法得到的转换语音与目标的相似度提高了27.6%,平均主观意见分(Mean Opinion Score,MOS)提高了0.6,客观测试也表明该方法谱失真最小,与目标的包络更接近.   相似文献   

7.
大多数现有的客观图像质量评价算法往往针对单一失真类型设计,对混合多失真图像质量评价效果欠佳,而且大都是运用传统机器学习方法,很少用到深度学习方法,为此,提出一种基于相位一致变换和卷积神经网络的无参考图像质量评价方法,用来评价混合失真图像。对输入图像进行分块和相位一致变换,使用卷积网络训练、预测图像质量得分,其中卷积网络结构包括4层卷积层、3层最大池化层和2层全连接层。在Live混合失真质量评价数据库上的实验结果表明,所提方法预测的图像质量分和主观质量评分达到了很好的一致性。  相似文献   

8.
为了给双耳听力设备佩戴者带来更好的语音可懂度,提出了一种利用双耳时间差与声级差的近场语音增强算法,该方法首先利用这两种差异来估计语音的功率谱和语音的相干函数,然后计算干扰噪声在左右耳间的头相关传输函数的比值,最后构造两个维纳滤波器。客观评价的参数显示该算法去噪效果优于对比算法而目标语音的时间差误差和声级差误差低于对比算法。主观的言语接受阈测试表明该方法能有效提高语音可懂度。结果表明,该算法在能够有效去除干扰噪声的同时,保留了目标语音的空间信息。   相似文献   

9.
一种频域基频提取新方法   总被引:3,自引:0,他引:3  
提出了一种基于二值侧抑制网络的频域基频提取方法。即利用二值侧抑制网络对语音的短时谱进行峰值提取,得到包括语音基频及其谐波的线谱,根据谐波间的距离平均值估算出基频.该算法在COSDIC数据库上进行了测试,并与自相关基频提取法和倒谱基频提取法进行了比较.实验数据表明,本算法具有更高的精度和更强的抗噪声性能.  相似文献   

10.
基于多窗谱的心理声学语音增强   总被引:7,自引:2,他引:5  
吴红卫  吴镇扬  赵力 《声学学报》2007,32(3):275-281
与传统的周期谱图相比,多窗谱具有更小的估计方差。从含噪语音的多窗谱对噪声及噪声与含噪语音之比(NNSR)进行估计,用基于NNSR的幅度谱减实现用于计算人耳掩蔽阈值的预增强语音,用集成了人耳掩蔽阈值的心理声学加权规则实现最终的增强语音。考虑到多窗谱的特点对掩蔽偏移量进行了修正,修正后的重建语音,其客观测量指标修正巴克谱测度比修正前有一定的改进。再对心理声学加权规则作最大值小于1的限制,则输入信噪比越大(0 dB以上),分段信噪比和总体信噪比提高得越多。非正式试听表明重建语音失真较小,背景噪声大大降低,且没有音乐噪声。  相似文献   

11.
陈雪勤  赵鹤鸣 《声学学报》2013,38(2):195-200
为了改善耳语音转换中声道系统的转换性能,针对定值转换方法在非特定人耳语音转换系统中效果不理想的情况,提出使用通用背景模型建立独立于说话人的声道系统转换模型。进一步针对在通用背景模型中由于较大分量数产生的声学概率密度统计模型的误差问题,提出基于最小谱失真度的后验概率和有效高斯分量选择方法优化特征矢量的转换性能。定义了板仓一斋田谱失真测度的性能指标对该模型进行分析比较,实验表明,基于通用背景模型的转换特征矢量平均谱失真度性能指标优于定值偏移方法,且稳定性明显好于定值偏移方法。通用背景模型基础上有效高斯分量选择方法可进一步将性能指标提高5.11%,主观听觉测试表明本文方法可改善转换语音的清晰度和准确度。   相似文献   

12.
王玥  李平  崔杰 《声学学报》2013,38(4):501-508
为了在噪声抑制和语音失真中之间寻找最佳平衡,提出了一种听觉频域掩蔽效应的自适应β阶贝叶斯感知估计语音增强算法,以期提高语音增强的综合性能。算法利用了人耳的听觉掩蔽效应,根据计算得到的频域掩蔽阈自适应调整β阶贝叶斯感知估计语音增强算法中的β值,从而仅将噪声抑制在掩蔽阈之下,保留较多的语音信息,降低语音失真。并分别用客观和主观评价方式,对所提出的算法的性能进行了评估,并与原来基于信噪比的自适应β阶贝叶斯感知估计语音增强算法进行了比较。结果表明,频域掩蔽的β阶贝叶斯感知估计方法的综合客观评价结果在信噪比为-10 dB至5 dB之间时均高于基于信噪比的自适应β阶贝叶斯感知估计语音增强算法。主观评价结果也表明频域掩蔽的β阶贝叶斯感知估计方法能在尽量保留语音信息的同时,较好的抑制背景噪声。   相似文献   

13.
针对小样本情况下,使用混合概率线性回归(Mixture of Probabilistic Linear Regressions,MPLR)模型进行语音转换容易出现过拟合的问题,提出利用动态核特征替代源说话人语音谱特征后,对转换函数参数进行贝叶斯最大后验估计(Maximum a Posterior,MAP)求解的方法。首先采用核函数将源说话人的语音谱特征转化为动态核特征,再引入转换函数参数的先验知识,最后根据对误差的不同假设,提出两种求解转换函数参数的方法。客观评测实验结果表明,所提出方法的平均谱失真值相对于MPLR模型转换方法平均降低了4.25%。主观评测实验结果表明,所提出的方法在转换语音的相似度和自然度方面的得分均高于MPLR方法。实验结果证明,所提出方法有效地改善了语音转换中的过拟合问题。  相似文献   

14.
李娜  曾向阳  乔宇  李志锋 《声学学报》2015,40(3):455-461
针对小样本情况下,使用混合概率线性回归(Mixture of Probabilistic Linear Regressions,MPLR)模型进行语音转换容易出现过拟合的问题,提出利用动态核特征替代源说话人语音谱特征后,对转换函数参数进行贝叶斯最大后验估计(Maximum a Posterior,MAP)求解的方法。首先采用核函数将源说话人的语音谱特征转化为动态核特征,再引入转换函数参数的先验知识,最后根据对误差的不同假设,提出两种求解转换函数参数的方法。客观评测实验结果表明,所提出方法的平均谱失真值相对于MPLR模型转换方法平均降低了4.25%。主观评测实验结果表明,所提出的方法在转换语音的相似度和自然度方面的得分均高于MPLR方法。实验结果证明,所提出方法有效地改善了语音转换中的过拟合问题。   相似文献   

15.
基于噪声谱结构特性的谱减法   总被引:5,自引:1,他引:4  
提出了基于噪声谱结构特性的谱减法,在不增加语音失真的情况下,抑制传统谱减法的“音乐噪声”。首先,依据噪声谱结构特性在频带间自适应平滑周期图,减小谱估计方差的同时,避免噪声非连续谱的能量泄露;其次,依据噪声谱的结构特性,对增益函数进行自适应调整以更有效的抑制有调噪声。测试结果表明,不论对宽带噪声还是对窄带噪声,本文算法在信噪比提高和噪声抑制量等客观评价指标上都明显优于传统谱减法。非正式主观测听进一步验证了本文算法的有效性。   相似文献   

16.
为了克服低信噪比输入下,语音增强造成语音清音中的弱分量损失,造成重构信号包络失真的问题。论文提出了一种新的语音增强方法。该方法根据语音感知模型,采用不完全小波包分解拟合语音临界频带,并对语音按子带能量进行清浊音区分处理,在阈值计算上,提出了一种清浊音分离,基于子带信号能量的小波包自适应阈值算法。通过仿真实验,客观评测和听音测试表明,该算法在低信噪比输入时较传统算法,能够更加有效地减少重构信号包络失真,在不损伤语音清晰度和自然度的前提下,使输出信噪比明显提高。将该算法与能量谱减法结合,进行二次增强能进一步提高降噪输出的语音质量。  相似文献   

17.
基于纯牛奶、掺杂牛奶样品间二维红外相关谱欧氏距离,依据未知样品与校正集中“极值样品”欧氏距离平均值、组内、组间样品欧氏距离平均值,提出了一种掺杂牛奶判别的新方法。分别配置掺杂尿素牛奶(0.01~0.3 g·L-1)和掺杂三聚氰胺牛奶(0.01~0.3 g·L-1)样品各16个,采集纯牛奶及掺杂牛奶样品的红外光谱。以牛奶中掺杂物浓度为外扰,构建纯牛奶与掺杂牛奶的同步二维红外相关谱,并计算了各样品相关谱矩阵间的欧氏距离。在此基础上,分别建立掺杂尿素牛奶、掺杂三聚氰胺牛奶与纯牛奶的判别模型,确定模型中的“极值样品”,组内、组间样品欧氏距离平均值。利用所建模型,计算未知样品与“极值样品”的欧式距离,并依据判别规则,对未知样品进行判别。研究结果表明: 基于样品红外相关谱矩阵间欧氏距离可实现掺杂牛奶的判别,其判别正确率为100%,验证了该方法的有效性。该研究为掺杂牛奶的检测提供了一种新的可能方法。  相似文献   

18.
光谱失真客观度量方法初探   总被引:2,自引:2,他引:0  
石大莲  吕群波  崔燕  高静  袁艳  黄旻 《光子学报》2009,38(6):1530-1533
分析了在光谱图像压缩的性能评价中常用的几种光谱失真客观度量方法,针对光谱曲线的关键区域,改进了相对光谱二次误差,提出了一种基于光谱导数曲线的光谱失真客观度量方法.该方法与光谱图像的应用需求一致,对谱线特征吸收峰的变化尤为敏感.仿真实验结果表明,该方法能有效地度量光谱图像压缩引入的各种光谱失真.  相似文献   

19.
多标度分形理论及其在语音质量客观评价中的应用   总被引:5,自引:1,他引:4  
探讨了多标度分形理论在语音信号处理中的应用,提出了语音信号的多标度分形分析 MFASS(Multifractal Approachof Speech Signal)方法,并在 MFASS基础上提出了一种新的基于输出方式的语音质量客观评价方法——OMBFD(ObjectiveMeasures Based on Fractal Dimension)方法。该方法利用多标度分形维数来描述语音信号的质量特征。实验结果表明,OMBFD方法能够描述语音质量好坏程度,其评价结果与主观评价分的相关度达到0.75以上。  相似文献   

20.
针对在基于深度学习语音增强的方法中因采用因果式的网络输入导致语音增强性能下降的问题,提出了一种基于轻量级卷积门控循环神经网络(LCGRU)的语音增强方法。门控循环神经网络能够建模语音信号的时间相关性,但是其全连接结构破坏了语音信号的时频结构特征,并且参数数量庞大,不利于网络的训练。对此,本文采用卷积核替代门控循环神经网络中的全连接结构,在对语音信号时间相关性建模的同时保留了语音信号的时频结构特征,同时降低了网络的参数数量。为充分利用先前帧的特征信息,该网络单元当前时刻的输入融合了上一时刻的输入与输出。针对网络训练过程中容易产生过拟合的问题,本文采用了线性门控机制来控制信息的传输,这缓解了网络训练过程中的过拟合问题,提高了网络的语音增强性能。实验结果表明,本文所提出的网络结构在增强后的语音感知质量(PESQ),语音短时客观可懂度(STOI),分段信噪比(SSNR)等指标上均优于传统的网络结构。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号