共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
汉语通信系统客观音质评价方法 总被引:5,自引:0,他引:5
提出一种使用语音频谱动态特性的倒谱距离测量对通信系统或通信设备进行客观音质评价方法.它是在对语音通信中主、客观音质评价的研究并在使用LPC倒谱距离评价普通话语音质量的基础上发展起来的。语音频谱动态特性是利用倒谱系数对时间的回归分析来表示的.这种方法中,使用倒谱系数,回归系数和能量三个参数计算距离。比较了四种距离估算方法和主观音质评价(MOS)的相关性,结果表明该方法的综合评价与MOS得分的相关性最好,相关系数为0.954,取得了客观评价方法与主观评价方法一致的结果。 相似文献
3.
基于修正Mel域掩蔽模型和无语音概率的耳语音增强 总被引:1,自引:0,他引:1
提出了一种基于修正Mel域听觉掩蔽模型和无语音概率的耳语音增强方法。该方法根据耳语音的发音特点对Mel频率进行修正,对每一帧耳语音信号进行Mel域频带滤波,同时通过无语音概率(SAP)动态地确定每个频带的听觉掩蔽阈值,对不同的听觉掩蔽阈值自适应地调整谱减系数来进行耳语音增强。对增强后的耳语音进行客观和主观测试,结果表明,该方法与其它谱减法相比,能将残留噪声和背景噪声控制在人耳掩蔽阈值下,取得更小的语音失真,主观听觉也得到了很大的改善。 相似文献
4.
针对目前有监督语音增强忽略了纯净语音、噪声与带噪语音之间的幅度谱相似性对增强效果影响等问题,提出了一种联合精确比值掩蔽(ARM)与深度神经网络(DNN)的语音增强方法。该方法利用纯净语音与带噪语音、噪声与带噪语音的幅度谱归一化互相关系数,设计了一种基于时频域理想比值掩蔽的精确比值掩蔽作为目标掩蔽;然后以纯净语音和噪声幅度谱为训练目标的DNN为基线,通过该DNN的输出来估计目标掩蔽,并对基线DNN和目标掩蔽进行联合优化,增强语音由目标掩蔽从带噪语音中估计得到;此外,考虑到纯净语音与噪声的区分性信息,采用一种区分性训练函数代替均方误差(MSE)函数作为基线DNN的目标函数,以使网络输出更加准确。实验表明,区分性训练函数提升了基线DNN以及整个联合优化网络的增强效果;在匹配噪声和不匹配噪声下,相比于其它常见DNN方法,本文方法取得了更高的平均客观语音质量评估(PESQ)和短时客观可懂度(STOI),增强后的语音保留了更多语音成分,同时对噪声的抑制效果更加明显。 相似文献
5.
语音质量的客观评价可以代替昂贵的人工评分,但是目前客观指标的计算通常需要纯净的参考语音,这在许多实际声学系统中很难获得。为此提出了一种融合辅助目标学习和卷积循环网络(CRN)的非侵入式语音质量评价算法。为降低算法的复杂度,算法采用基于仿人耳听觉特性滤波器的Bark频率倒谱系数(BFCCs)作为CRN的输入。算法首先构建一个卷积神经网络(CNN)从BFCCs中提取帧级特征。然后,构建双向的长短记忆网络,在帧级特征中建模长期的时间依赖性和序列特征。最后,利用自注意力机制自适应地从帧级特征中筛选出有用信息,将其整合至话语层面的特征中,并将这些话语级特征映射为客观得分。为改善质量评测的有效性,算法采用多任务训练策略,引入语音激活检测(VAD)作为辅助学习目标。基于开源数据库的实验显示,与其他非侵入式算法相比,提出的算法和平均主观意见分(MOS)具有更好的相关性。而且,算法参数规模较小且对ITU-T P.808发布的带有主观MOS的失真语音数据库具有良好的泛化能力,接近语音质量感知评估(PESQ)指标的精度。 相似文献
6.
提出一种基于自组织聚类,并且利用改进粒子群算法确定转换模型参数的语音转换方法.该方法首先基于自组织特征映射网络对特征参数进行聚类,再对每个聚类分别建立转换规则,并且利用柯西变异的粒子群算法确定每个转换规则中的模型参数.与传统的单一转换规则相比,聚类后建立的多转换规则以及利用改进粒子群算法确定参数能够提高映射关系的准确度,避免参数陷入局部最优点。以女声转男声为例,主观测试表明该方法得到的转换语音与目标的相似度提高了27.6%,平均主观意见分(Mean Opinion Score,MOS)提高了0.6,客观测试也表明该方法谱失真最小,与目标的包络更接近. 相似文献
7.
大多数现有的客观图像质量评价算法往往针对单一失真类型设计,对混合多失真图像质量评价效果欠佳,而且大都是运用传统机器学习方法,很少用到深度学习方法,为此,提出一种基于相位一致变换和卷积神经网络的无参考图像质量评价方法,用来评价混合失真图像。对输入图像进行分块和相位一致变换,使用卷积网络训练、预测图像质量得分,其中卷积网络结构包括4层卷积层、3层最大池化层和2层全连接层。在Live混合失真质量评价数据库上的实验结果表明,所提方法预测的图像质量分和主观质量评分达到了很好的一致性。 相似文献
8.
9.
10.
基于多窗谱的心理声学语音增强 总被引:7,自引:2,他引:5
与传统的周期谱图相比,多窗谱具有更小的估计方差。从含噪语音的多窗谱对噪声及噪声与含噪语音之比(NNSR)进行估计,用基于NNSR的幅度谱减实现用于计算人耳掩蔽阈值的预增强语音,用集成了人耳掩蔽阈值的心理声学加权规则实现最终的增强语音。考虑到多窗谱的特点对掩蔽偏移量进行了修正,修正后的重建语音,其客观测量指标修正巴克谱测度比修正前有一定的改进。再对心理声学加权规则作最大值小于1的限制,则输入信噪比越大(0 dB以上),分段信噪比和总体信噪比提高得越多。非正式试听表明重建语音失真较小,背景噪声大大降低,且没有音乐噪声。 相似文献
11.
为了改善耳语音转换中声道系统的转换性能,针对定值转换方法在非特定人耳语音转换系统中效果不理想的情况,提出使用通用背景模型建立独立于说话人的声道系统转换模型。进一步针对在通用背景模型中由于较大分量数产生的声学概率密度统计模型的误差问题,提出基于最小谱失真度的后验概率和有效高斯分量选择方法优化特征矢量的转换性能。定义了板仓一斋田谱失真测度的性能指标对该模型进行分析比较,实验表明,基于通用背景模型的转换特征矢量平均谱失真度性能指标优于定值偏移方法,且稳定性明显好于定值偏移方法。通用背景模型基础上有效高斯分量选择方法可进一步将性能指标提高5.11%,主观听觉测试表明本文方法可改善转换语音的清晰度和准确度。 相似文献
12.
为了在噪声抑制和语音失真中之间寻找最佳平衡,提出了一种听觉频域掩蔽效应的自适应β阶贝叶斯感知估计语音增强算法,以期提高语音增强的综合性能。算法利用了人耳的听觉掩蔽效应,根据计算得到的频域掩蔽阈自适应调整β阶贝叶斯感知估计语音增强算法中的β值,从而仅将噪声抑制在掩蔽阈之下,保留较多的语音信息,降低语音失真。并分别用客观和主观评价方式,对所提出的算法的性能进行了评估,并与原来基于信噪比的自适应β阶贝叶斯感知估计语音增强算法进行了比较。结果表明,频域掩蔽的β阶贝叶斯感知估计方法的综合客观评价结果在信噪比为-10 dB至5 dB之间时均高于基于信噪比的自适应β阶贝叶斯感知估计语音增强算法。主观评价结果也表明频域掩蔽的β阶贝叶斯感知估计方法能在尽量保留语音信息的同时,较好的抑制背景噪声。 相似文献
13.
《声学学报:英文版》2015,(3)
针对小样本情况下,使用混合概率线性回归(Mixture of Probabilistic Linear Regressions,MPLR)模型进行语音转换容易出现过拟合的问题,提出利用动态核特征替代源说话人语音谱特征后,对转换函数参数进行贝叶斯最大后验估计(Maximum a Posterior,MAP)求解的方法。首先采用核函数将源说话人的语音谱特征转化为动态核特征,再引入转换函数参数的先验知识,最后根据对误差的不同假设,提出两种求解转换函数参数的方法。客观评测实验结果表明,所提出方法的平均谱失真值相对于MPLR模型转换方法平均降低了4.25%。主观评测实验结果表明,所提出的方法在转换语音的相似度和自然度方面的得分均高于MPLR方法。实验结果证明,所提出方法有效地改善了语音转换中的过拟合问题。 相似文献
14.
针对小样本情况下,使用混合概率线性回归(Mixture of Probabilistic Linear Regressions,MPLR)模型进行语音转换容易出现过拟合的问题,提出利用动态核特征替代源说话人语音谱特征后,对转换函数参数进行贝叶斯最大后验估计(Maximum a Posterior,MAP)求解的方法。首先采用核函数将源说话人的语音谱特征转化为动态核特征,再引入转换函数参数的先验知识,最后根据对误差的不同假设,提出两种求解转换函数参数的方法。客观评测实验结果表明,所提出方法的平均谱失真值相对于MPLR模型转换方法平均降低了4.25%。主观评测实验结果表明,所提出的方法在转换语音的相似度和自然度方面的得分均高于MPLR方法。实验结果证明,所提出方法有效地改善了语音转换中的过拟合问题。 相似文献
15.
16.
为了克服低信噪比输入下,语音增强造成语音清音中的弱分量损失,造成重构信号包络失真的问题。论文提出了一种新的语音增强方法。该方法根据语音感知模型,采用不完全小波包分解拟合语音临界频带,并对语音按子带能量进行清浊音区分处理,在阈值计算上,提出了一种清浊音分离,基于子带信号能量的小波包自适应阈值算法。通过仿真实验,客观评测和听音测试表明,该算法在低信噪比输入时较传统算法,能够更加有效地减少重构信号包络失真,在不损伤语音清晰度和自然度的前提下,使输出信噪比明显提高。将该算法与能量谱减法结合,进行二次增强能进一步提高降噪输出的语音质量。 相似文献
17.
基于纯牛奶、掺杂牛奶样品间二维红外相关谱欧氏距离,依据未知样品与校正集中“极值样品”欧氏距离平均值、组内、组间样品欧氏距离平均值,提出了一种掺杂牛奶判别的新方法。分别配置掺杂尿素牛奶(0.01~0.3 g·L-1)和掺杂三聚氰胺牛奶(0.01~0.3 g·L-1)样品各16个,采集纯牛奶及掺杂牛奶样品的红外光谱。以牛奶中掺杂物浓度为外扰,构建纯牛奶与掺杂牛奶的同步二维红外相关谱,并计算了各样品相关谱矩阵间的欧氏距离。在此基础上,分别建立掺杂尿素牛奶、掺杂三聚氰胺牛奶与纯牛奶的判别模型,确定模型中的“极值样品”,组内、组间样品欧氏距离平均值。利用所建模型,计算未知样品与“极值样品”的欧式距离,并依据判别规则,对未知样品进行判别。研究结果表明: 基于样品红外相关谱矩阵间欧氏距离可实现掺杂牛奶的判别,其判别正确率为100%,验证了该方法的有效性。该研究为掺杂牛奶的检测提供了一种新的可能方法。 相似文献
18.
19.
多标度分形理论及其在语音质量客观评价中的应用 总被引:5,自引:1,他引:4
探讨了多标度分形理论在语音信号处理中的应用,提出了语音信号的多标度分形分析 MFASS(Multifractal Approachof Speech Signal)方法,并在 MFASS基础上提出了一种新的基于输出方式的语音质量客观评价方法——OMBFD(ObjectiveMeasures Based on Fractal Dimension)方法。该方法利用多标度分形维数来描述语音信号的质量特征。实验结果表明,OMBFD方法能够描述语音质量好坏程度,其评价结果与主观评价分的相关度达到0.75以上。 相似文献
20.
提出了一种采用扩展型双线性变换将耳语音转换为正常语音的方法。根据耳语音在不同频段的共振峰偏移程度不同,将耳语音的频谱进行分段处理,在此基础上建立耳语音转换为正常语音的转换函数。由于耳语音在各频段相对于正常语音非线性偏移,在双线性变换函数中引入扩展因子,使其对频谱的非线性偏移与对共振峰带宽的压缩更加符合耳语音转换为正常语音的实际转换需求,有效减小了转换语音与正常语音的谱失真距离。实验结果表明,本文的转换语音在音质和可懂度上均得到了有效提高。 相似文献