期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

融合改进梅尔谱特征和深信念网络的语音测谎算法 总被引：3，自引：0，他引：3

谢跃梁瑞宇包永强赵力王诗佳《声学学报》2019,44(2):214-220

为实现非接触式谎言检测,特提出了以语谱特征为线索,结合深度学习的谎言检测方法。为提取谎言中微颤抖所引起的语谱局部能量变化,算法先对梅尔频谱进行了Hu矩处理,然后进行离散余弦变换去除相关性。该特征利用了Hu矩的正交不变性和平移不变性,能较好的体现出语谱中局部能量的集中方式。然后将所提取的特征作为改进深信念网络输入进行谎言识别。为提高受限玻尔兹曼机的并行回火训练算法中相邻温度链之间的交换率,训练算法先对Markov链的状态能量进行等能量的划分,使得每个能量环内的状态具有相似的能量,然后再进行交换以提高交换率从而优化整个网络的训练。在Columbia-SRI-Colorado数据库上的实验表明,谎言识别率达到了71.47%,比梅尔倒谱系数特征的识别率提高了3%,比传统的BayesNet分类算法提高了7%。相似文献

2.

面向鲁棒自动语音识别的一致性自监督学习方法

高长丰程高峰张鹏远《声学学报》2023,(3):578-587

提出了一种基于一致性自监督学习的鲁棒自动语音识别方法。该方法通过使用语音信号仿真技术,模拟一条语音在不同声学场景下的副本;在通过自监督学习方式学习语音表征的同时,极大化一条语音在不同声学环境下对应语音表征的相似性,从而获取到与环境干扰无关的语音表征方式,提高下游语音识别模型的性能。在远讲数据集CHiME-4和会议数据集AMI上的实验表明,所提的一致性自监督学习算法能够取得相比已有的wav2vec2.0自监督学习基线算法30%以上的识别词错误率下降。这表明,所提方法是一种获取噪声无关语音表征、提升鲁棒语音识别性能的有效方法。相似文献

3.

结合幅度谱和功率谱字典的语音增强方法 总被引：1，自引：0，他引：1

下载免费PDF全文

聂玲子陈雪勤赵鹤鸣《声学学报》2021,46(1):81-91

从双路字典学习、噪声功率谱估计、语音幅度谱重构角度提出了一种改进的谱特征稀疏表示语音增强方法。在字典学习阶段,融合功率谱与幅度谱特征,采用区分性字典降低语音字典和噪声字典的相干性;在语音增强阶段,提出一种噪声功率谱估计方法对非平稳噪声进行跟踪估计;考虑到幅度谱和功率谱特征对不同噪声的适应程度不同,设计了语音重构权值表。对分别由幅度谱和功率谱恢复而来的两路信号进行自适应加权重构,结合相位补偿函数得到增强后的语音信号。实验结果表明,该方法在平稳、非平稳噪声环境下相比于单一谱特征的语音增强方法平均提高31.6%,改善了语音增强方法的性能。相似文献

4.

用于无监督语音降噪的听觉感知鲁棒主成分分析法 总被引：2，自引：0，他引：2

下载免费PDF全文

闵刚邹霞韩伟张雄伟谭薇《声学学报》2017,42(2):246-256

针对现有稀疏低秩分解语音降噪方法对人耳听觉感知特性应用不充分、语音失真易被感知的问题,提出了一种用于语音降噪的听觉感知鲁棒主成分分析法。由于耳蜗基底膜对于频率感知具有非线性特性,该方法采用耳蜗谱图作为语噪分离的基础。此外,选用符合人耳听觉感知特性的板仓-斋田距离度量作为优化目标函数,在稀疏低秩建模过程中引入非负约束以使分解分量更符合实际物理含义,并在交替方向乘子法框架下推导了具有闭合解形式的迭代优化算法。文中方法在语音降噪时是完全无监督的,无需预先训练语音或噪声模型。多种类型噪声和不同信噪比条件下的仿真实验验证了该方法的有效性,噪声抑制效果较目前同类算法更为显著,且降噪后语音的可懂度和总体质量有所提高、至少相当。相似文献

5.

基于特征分量输出概率加权的多数据流鲁棒语音识别方法

张军韦岗余华《声学学报》2008,33(2):102-108

针对传统多数据流语音识别方法不考虑数据流内各特征分量受噪声影响差异的缺点,提出了一种基于特征分量输出概率加权的数据流结合新方法,分析了特征分量输出概率加权对识别的影响,并结合丢失数据技术中的边缘化(Marginalisation)模型和软判决(Soft decision)模型给出了两种具体的数据流结合方案。将所提数据流结合方案应用到复合子带语音识别系统中,实验结果表明,所提识别方法可以根据噪声环境的不同自适应地调整数据流对识别影响的大小,其性能显著优于传统的多数据流识别方法。相似文献

6.

采用低维特征映射的耳语音向正常音转换 总被引：1，自引：0，他引：1

下载免费PDF全文

周健窦云峰刘荣敏王华彬陶亮《声学学报》2018,43(5):855-863

在将耳语音转换为正常音时,为了研究降维后语音特征对耳语音转换的影响,分别对耳语音和正常音谱包络进行自适应编码以提取耳语音和正常音的低维特征,然后使用BP网络建立耳语音和正常音低维谱包络特征之间的映射关系以及正常音基频和耳语音低维谱包络特征之间的关系。转换时,根据耳语音低维谱包络特征获得对应正常音的低维谱包络特征和基频,对低维谱包络特征进行解码后获得对应的正常音谱包络。实验结果表明,采用此方法转换后的语音与正常音之间的倒谱距离相比高斯混合模型方法下降了10%,转换后语音的自然度和可懂度都有所提高。相似文献

7.

基于改进的加速鲁棒特征的目标识别

下载免费PDF全文

龙思源张葆宋策孙保基《中国光学》2017,10(6):719-725

为了提高加速鲁棒特征(SURF)算法的实时性和准确性,本文提出了一种结合AGAST角点检测和改进的SURF特征描绘算法。首先利用AGAST角点检测模板检测特征点,再使用增加对角信息的哈尔小波响应来生成特征点的描述子,之后利用特征袋对产生的描述子进行编码并生成新的特征向量,最后利用支持向量机(SVM)对特征向量进行分类,完成识别。本文以SIFT和SURF算法为对照,分别进行不同视角、光照和尺度的识别实验。实验结果表明,本文算法的平均识别率为98.0%、96.9%、97.1%,平均时间分别为66.1 ms、79.3 ms、41.0 ms,在识别率上较优于SURF算法,所耗时间约是SURF算法的1/3。相似文献

8.

采用联合字典优化的噪声鲁棒性语音转换算法

下载免费PDF全文

张石磊简志华孙闽红钟华刘二小《声学学报》2019,44(6):1074-1082

针对含噪语音难以实现有效的语音转换,本文提出了一种采用联合字典优化的噪声鲁棒性语音转换算法。在联合字典的构成中,语音字典采用后向剔除算法(Backward Elimination algorithm,BE)进行优化,同时引入噪声字典,使得含噪语音与联合字典相匹配。实验结果表明,在保证转换效果的前提下,后向剔除算法能够减少字典帧数,降低计算量。在低信噪比和多种噪声环境下,本文算法与传统NMF算法和基于谱减法消噪的NMF转换算法相比具有更好的转换效果,噪声字典的引入提升了语音转换系统的噪声鲁棒性。相似文献

9.

一种基于与噪声特征距离最大的语音识别方法

下载免费PDF全文

张军英《应用声学》1992,11(3):12-16

相似文献

10.

基于改进噪声估计的谱减法应用于说话人识别

李哲军周萍景新幸《应用声学》2016,24(4):155-157, 162

针对语音信号中存在加性噪声使MFCC的鲁棒性和识别系统的性能下降的问题,基本谱减法的引入在增强MFCC抗噪性上取得的效果有限,为了使MFCC具有更好的抗噪性,提出了一种改进算法,在谱减法的基础上引入谱熵的思想,利用谱熵值的分布逐帧进行噪声估计,可更精确地谱减去噪;实验结果表明,当语音中含有加性噪声时,与基本谱减法相比,改进谱减法的说话人识别系统抗噪性与鲁棒性更好。 相似文献

11.

结合加速鲁棒特征的遥感影像半全局立体匹配

王阳萍秦安娜郝旗党建武《光学学报》2020,(16):163-171

针对遥感影像半全局立体匹配(SGM)对噪声敏感及在视差不连续和弱纹理区域产生条纹导致匹配率低的问题,提出一种结合加速鲁棒特征(SURF)的遥感影像SGM算法。首先,用SURF计算遥感影像的特征匹配点和特征点主方向,并用快速最近邻搜索算法剔除错误的匹配点;然后,用Census变换计算两幅遥感影像的匹配代价,用特征点主方向来调整SGM算法在不同聚合路径方向上的路径权重;最后,用改进的加权联合双边滤波(WJBF)方法进行视差精化,以去除视差图中的噪声和条纹。在WorldView、IKONOS、高景一号遥感影像数据集上进行实验,结果表明,所提算法无论在主观视觉还是客观评价指标上都优于对比算法,有效解决了弱纹理和视差不连续区域中的条纹和噪声,提高了立体匹配精度。相似文献

12.

基于双向搜索方法的最小值控制递归平均语音增强算法 总被引：4，自引：0，他引：4

曾毓敏王鹏《声学学报》2010,35(1):81-87

语音增强效果的提高,有赖于对噪声的准确估计和对噪声变化的及时跟踪与更新。为了提高对非平稳噪声的估计和更新能力,本文基于\ 相似文献

13.

改进的噪声鲁棒语音稀疏线性预测算法

周彬邹霞张雄伟《声学学报》2014,39(5):655-662

语音线性预测分析算法在噪声环境下性能会急剧恶化,针对这一问题,提出一种改进的噪声鲁棒稀疏线性预测算法。首先采用学生t分布对具有稀疏性的语音线性预测残差建模,并显式考虑加性噪声的影响以提高模型鲁棒性,从而构建完整的概率模型。然后采用变分贝叶斯方法推导模型参数的近似后验分布,最终实现噪声鲁棒的稀疏线性预测参数估计。实验结果表明,与传统算法以及近几年提出的基于l₁范数优化的稀疏线性预测算法相比,该算法在多项指标上具有优势,对环境噪声具有更好的鲁棒性,并且谱失真度更小,因而能够有效提高噪声环境下的语音质量。相似文献

14.

智能反射面辅助的星地融合网络鲁棒安全波束成形算法

下载免费PDF全文

肖圣杰林敏赵柏林志程铭《物理学报》2022,(7):344-352

针对智能反射面辅助的星地融合网络,提出了一种基于窃听者非完美信道状态信息的鲁棒安全波束成形方法.首先,考虑到卫星利用点波束技术服务地球站,而地面基站通过多播技术服务多个地面用户,并且在两个网络实现频谱共享的情况,建立以系统总发射功率最小化为目标,基站用户服务质量和地球站安全可达速率为约束条件的联合优化问题;其次,为了求解该非凸问题,利用三角不等式和Holder不等式推导出窃听者非完美信道状态信息条件下的输出信干噪比上下界;接下来,进一步提出了基于半正定规划和惩罚函数相结合的鲁棒波束成形和功率控制联合优化方法,以实现星地融合网络的安全可靠传输.最后,计算机仿真结果验证了本文所提算法的有效性和优越性. 相似文献

15.

提高耳语音可懂度的非对称压缩语音增强方法

周健郑文明王青云赵力《声学学报》2014,39(4):501-508

提出两种基于非对称代价函数的耳语音增强算法,将语音增强过程中的放大失真和压缩失真区分对待。Modified ItakuraSaito (MIS)算法对放大失真给予更多的惩罚,而Kullback-Leibler (KL)算法则对压缩失真给予更多的惩罚。实验结果表明,在低于—6 dB的低信噪比情况中,经MIS算法增强后的耳语音的可懂度相比传统算法有显著提高;而KL算法则获得了同最小均方误差语音增强算法近似的可懂度提高效果,证实了耳语音中的放大失真和压缩失真对于耳语音可懂度的影响并不相同,低信噪比时较大的压缩失真有助于提高耳语音可懂度,而高信噪比时的压缩失真对耳语音可懂度影响较小。相似文献

16.

在波形网络中融合相位信息的骨导语音增强 总被引：3，自引：0，他引：3

下载免费PDF全文

郑昌艳杨吉斌张雄伟孙蒙《声学学报》2021,46(2):309-320

已有骨导语音增强算法重点关注语音幅度谱增强,在波形合成时会因为相位不匹配导致语音质量下降。为解决该问题,提出了一种融合相位信息的波形网络(WaveNet)模型实现骨导语音增强波形生成。该方法以频带扩展WaveNet为基础,融合骨导语音相位谱信息与增强的语音幅度谱作为模型的条件特征,根据融合特征生成增强语音波形,实现了相位信息的有效利用。仿真实验综合对比了群时延谱和瞬时频率偏差谱相位特征,主客观结果表明,不论是采用串联融合还是卷积融合方式,骨导语音相位信息均有效补充了原有幅度谱条件特征,改善了语音增强效果。利用串联方式融合群时延谱特征可得到最佳结果,相比于原始骨导语音,平均意见得分(MOS)提升了约54.3%。相似文献

17.

人工影响天气作业飞机中语音增强算法的研究

王山海马鑫鑫刘谦杨敏《应用声学》2017,25(4):31-31

飞机实施人工影响天气作业,具有覆盖范围广,作业效果好的优点,是未来人工影响天气工作的发展方向。但人影作业飞机内部工作环境复杂,工作人员的正常语言交流会受到飞机引擎、机舱内设备、飞机外部等噪声的影响,甚至无法正常交流。因此,需要设计一种语音增强装备或设施来消除噪声,方便人影飞机上工作人员的正常沟通交流。从理论上阐述了参数法、非参数法、统计方法及其他语音增强算法。重点研究了维纳滤波法、谱减法和基于短时对数谱幅度的MMSE算法,并对这三种语音增强算法都进行了实验仿真,对比了各种算法的优缺点。针对人影飞机的特定工作环境,提出基于短时对数谱幅度的MMSE算法比较适合用于人影飞机上进行语音增强,消除噪音。相似文献

18.

舰船壳体结构噪声分离技术研究——非线性频谱特征及特征谱分离策略

下载免费PDF全文

肖斌《声学学报》2013,38(3):346-353

为分离舰船壳体结构非线性系统的结构噪声,考虑其非线性及响应谱特征,将其理想成纯输入非线性系统,采用Volterra级数模型计算其广义频响函数,获得非线性频谱特征,提出非线性系统噪声源分析策略,并进行数值仿真和试验研究,其结果表明:非线性频谱特征合理存在;提出的非线性系统噪声源分析策略合理有效,可实现系统激励源和广义频响函数的参数估计。非线性频谱特征及提出的非线性系统噪声源分析策略,为深入开展舰船壳体结构噪声的非线性特征识别及其特征谱分离研究提供基础。相似文献

19.

扩散噪声下协方差矩阵重构的语音分离与降噪

下载免费PDF全文

曾庆宁王师琦《声学学报》2021,46(5):775-784

针对传统多通道语音分离算法在扩散噪声下性能下降的问题,提出了一种用于语音分离及降噪的空间协方差模型及参数估计方法。该方法将扩散噪声视为独立声源,利用由导向矢量重构的空间协方差矩阵建模目标声源的空间特性,并通过空间协方差分析方法估计用于语音分离的多通道维纳滤波器。同时,还提出了一种联合该方法的后置滤波器参数框架,为输出信号降噪和失真的折中提供了更多选择。在扩散噪声下的单目标和多目标实验中,所提方法的语音提取和分离性能都优于对比算法,联合参数的后置滤波器可提供更为符合人们要求的降噪语音,验证了所提模型与参数估计方法的有效性。相似文献

20.

U-net网络中融合多头注意力机制的单通道语音增强EI北大核心CSCD

下载免费PDF全文

范君怡杨吉斌张雄伟郑昌艳《声学学报》2022,47(6):703-716

在低信噪比和突发背景噪声条件下,已有的深度学习网络模型在单通道语音增强方面效果并不理想,而人类可以利用语音的长时相关性对不同的语音信号形成综合感知。因此刻画语音的长时依赖关系有助于改进低信噪比和突发背景噪声下的增强性能。受该特性的启发,提出一种融合多头注意力机制和U-net深度网络的增强模型TU-net,实现基于时域的端到端单通道语音增强。TU-net网络模型采用U-net网络的编解码层对带噪语音信号进行多尺度特征融合,并利用多头注意力机制实现双路径Transformer,用于计算语音掩模,更好地建模长时相关性。该模型在时域、时频域和感知域计算损失函数,并通过加权组合损失函数指导训练。仿真实验结果表明,TU-net在低信噪比和突发背景噪声条件下增强语音信号的语音质量感知评估(PESQ)、短时客观可懂度(STOI)和信噪比增益等多个评价指标都优于同类的单通道增强网络模型,且保持相对较少的网络模型参数。相似文献