期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈斌张连海王波屈丹《声学学报》2012,37(1):104-112

提出了一种基于声韵母能量分布和共振峰结构特性的汉语连续语音声韵母边界检测方法。该方法首先将语音经过Seneff听觉感知模型得到听觉谱,然后基于听觉谱,选取全频带能量、低频带能量、谱重心、高低频能量比、中高频能量等特征参数对各声韵母类别能量分布和共振峰结构特性进行描述,最后根据特征参数变化剧烈的点确定出声韵母边界,并采用包络的一阶差分和基于样点的Kullback-Leibler距离对得到的边界进行修正。实验结果表明,对8 kHz采样的语音边界检测准确率可达到93.7%;信噪比10dB的语音边界检测准确率可达到85.3%以上;经过参数编码后语音边界检测准确率可达86 7%以上。相似文献

2.

共振峰编辑法区别鼻化元音中口、鼻音共振峰的实证探究*

下载免费PDF全文

赵擎华杨俊杰《应用声学》2021,40(6):937-945

为解决司法话者识别中利用鼻化元音构建元音声学空间图时如何准确判别鼻化元音的口、鼻音共振峰的问题。本文通过计算机语音工作站对语音样本的共振峰进行编辑操作，利用生成的语音样本构建不同的对照组分别进行听辨。结果表明，口音、鼻音共振峰分别被衰减后的语音变化特点呈现一定规律，使用此方法可以准确区分鼻化元音的口、鼻共振峰的阶次。本文建立的“共振峰编辑”与“听觉感知”相结合的判别方法，可以为司法话者识别及语音感知、识别等相关领域通过构建元音声学空间图进行声学特征研究的模型提供口音、鼻音共振峰的判别依据。相似文献

3.

基于模糊神经网络的话者辩认研究 总被引：3，自引：1，他引：2

袁中选徐柏龄余崇智《声学学报》1997,(4)

本文首先根据衡量话者特征参数有效性的F比值公式分析比较了LSP和CEP参数在描述话者特征方面的不同特性，确定LSP参数作为话者特征参数．接着提出了描述话者特征的层次模型．根据函数扩展网络的内插能力和隶属函数的模糊统计建立方法，用函数扩展网络实现模糊状态的隶属函数，由网络隶属函数构成话者特征层次模型的基本单元．以最大隶属度原则作为系统的辨认决策准则．在小词表（0－9十个数字）内，采用文本无关的方式进行42人的话者辨认实验，当测试语音由5个数字随机组合时系统正确辨认率为99．76％．相似文献

4.

水中目标窄带噪声识别的听觉外周模型

林正青邱梦然《声学学报》2016,41(6):881-890

为解决听觉外周模型特征在具有工程背景的水中目标声信号分类研究中识别率下降问题,提出了一种外周模型Gammatone滤波器组修正方法,获得的窄带噪声特征可明显提高水中目标识别性能。首先,分析了识别率下降原因,发现声学工程应用中多通道数据采集,导致信号频率范围变窄,而引起声信号的时频特征发生变化。其次,根据听觉模型用Gammatone滤波器组模拟人耳基底膜频率分解特性、低频信息包含水中目标噪声信号的重要类别特征,对原有的听觉模型特征进行插值,对滤波器组的通道数与中心频率进行适应性修正,得到目标噪声在较窄频带的27维特征,修正后的模型能够更精细地反映出目标时频特性。最后,采用神经网络分类器进行实验。结果表明,修正后的听觉模型保留了原较宽频带特征的主要信息,而且进一步提高了对实际目标的分类能力,识别率由原来的82.59%提高到88.80%。本文提出根据工程应用平台的有效接收频带优化听觉外周模型Gammatone滤波器组的设计,采用阵元级的多通道数据进行分析,侧重于工程应用,解决了多通道数据采集中,由于频带变窄,导致信号的特征信息量下降,进而引起声特征识别性能下降的问题,修正后的听觉模型特征,有效地提高水中目标辐射噪声的识别效果。本文对从事无源声呐目标识别、有源声呐目标识别、带宽受限的多通道声数据采集的时频特性分析研究人员具有一定的参考价值。相似文献

5.

感知线性预测在水下目标分类中的应用研究 总被引：5，自引：0，他引：5

彭圆王晟王科俊李雪耀林良骥林正青王建文《声学学报》2006,31(2):146-150

提出了基于感知线性预测(PLP)的模仿人耳听觉特性来提取水声信号鲁棒特征的方法。运用听觉心理学的三个概念: (1)临界带谱分析、(2)等响度曲线、(3)强度响度听觉幂率,形成估计听觉谱的方法,可获得一个12阶全极点模型的鲁棒特征矢量。运用这一特征矢量进行训练和识别的实验结果表明:(1)在不同的频率段内,人耳对6类目标辐射噪声信号敏感程度是不同的。(2)提取的基于听觉感知水下目标特征具有鲁棒性。(3)通过此方法提取的特征维数较低,运算速度快,识别的正确率比以往有所提高。相似文献

6.

基于多带解调分析和瞬时频率估计的耳语音话者识别 总被引：4，自引：0，他引：4

王敏赵鹤鸣《声学学报》2010,35(4):471-476

为了改善耳语音话者识别的稳健性,提出了一种基于调幅-调频(AM-FM)模型的耳语音特征参数,瞬时频率估计(IFE)。根据语音产生的共振峰调制理论,采用多带解调分析(MDA)获得语音的瞬时包络和频率;然后根据包络幅度和频率的加权估计,得到语音的特征IFE来描绘语音的频率结构。将该特征用于耳语话者识别并和传统的Mel倒谱系数(MFCC)进行了比较。实验结果表明,随着测试人数的增加,IFE的识别效果略好于MFCC;在测试信道改变的情况下,与MFCC相比IFE的稳健性得到了有效的提高。相似文献

7.

基于Shamma模型的车辆噪声听觉谱特性与目标分类

下载免费PDF全文

陈克安伍莹杨立学《应用声学》2011,30(6):407-417

为了满足现代交通对汽车类型自动识别的需求,针对等响度车辆噪声提出基于Shamma模型的听觉谱特性识别特征。首先分析了Shamma模型中听觉早期阶段和听皮层多尺度分析阶段的转换原理,给出了中枢听觉模型中STRF模型及纹波密度-速率图的计算方法。利用三类车辆空转状态下噪声的幅频、听觉谱和密度-速率特性进行分类识别,发现密度-速率特征具有识别率高、计算量小的特点,更适宜用于作为目标自动识别特征。相似文献

8.

音强斜率特性区别同卵双胞胎语音的实验研究*

下载免费PDF全文

杨俊杰何磊陈建新胡耀民李剑锋《应用声学》2019,38(3):364-370

为了寻找司法话者识别中区别同卵双胞胎语音的有效参量,该文利用音节音强的斜率特性对同卵双胞胎语音进行了实验研究。结果发现,在90%的置信度下,所有实验的双胞胎语音均能够被音节音强斜率予以区别,并且音强下降斜率的区别力明显高于音强上升斜率的区别力。因此得出结论,音节音强的斜率特性具有比音节间相对音强与相对时长二者联合检验更强的区别力,可以作为区别同卵双胞胎语音的有效参量。相似文献

9.

基于听觉特性的舰船辐射噪声信号仿真

周烨温玮杨日杰李沛宗范赵鹏《应用声学》2020,39(3):395-401

针对工程应用中对舰船辐射噪声信号仿真结果在听觉感受上模拟度欠佳的问题,建立了一种基于音色参量谱质心的辐射噪声仿真方法。采用基于实测谱的连续谱仿真模拟,并且通过整体对比实测信号的听觉特性来搜索符合特征样本音色的线谱族幅值参量,在一定程度上改善了仿真信号的听觉特征。通过仿真最优匹配度趋势来寻求最优搜索次数,用以缩短仿真时间,得到了符合工程应用的结果。相似文献

10.

利用自相关函数和双耳自相关函数分析对交通噪声特征参量的提取~

杨青马蕙籍仙荣《声学学报》2014,39(5):624-632

对实地双通道测量获得的道路交通噪声和铁路噪声信号样本进行了自相关函数和双耳自相关函数(Interaural CrossCorrelation Function)的分析。进而通过对噪声样本时间因子和空间因子的相关性分析、主成分分析和主观评价实验,得到了3个铁路噪声源特征参量物理因子和4个道路交通噪声源特征参量物理因子。发现与传统的声压级测量相比,表征声音信号时间特性和空间特性的这7个物理量可以更全面、准确地表征交通噪声的特性。在对道路噪声进行测量或分析时,掌握与声源视觉宽度和音调感相对应的物理因子以及双耳时延和初始能量,就可获悉与人的主观评价相一致的道路交通噪声特征信息;对铁路噪声而言,掌握与声源视觉宽度相对应的物理因子以及双耳时延和声音的重复性特征,就可以得到与入主观评价相一致的铁路噪声特征信息。综合道路噪声特征参量和铁路噪声特征参量可以发现,双耳时延和与声源视觉宽度相对应的物理因子是与人的主观反应最为一致的主成分指标,说明噪声中决定人的评价的最主要的因素是代表空间特征的信号因子。相似文献

11.

声门下共鸣的谱规整用于非特定人的语音识别

侯丽敏黄振华谢娟敏《声学学报》2010,35(5):580-586

提出在参数的提取过程中用不同的感知规整因子对不同人的参数归一化,从而实现在非特定人语音识别中对不同人的归一化处理。感知规整因子是基于声门上和声门下之间耦合作用产生声门下共鸣频率来估算的,与采用声道第三共振峰作为基准频率的方法比较,它能较多的滤除语义信息的影响,更好地体现说话人的个性特征。本文提取抗噪性能优于Mel倒谱参数的感知最小方差无失真参数作为识别特征,语音模型用经典的隐马尔可夫模型(HMM)。实验证明,本文方法与传统的语音识别参数和用声道第三共振峰进行谱规整的方法相比,在干净语音中单词错误识别率分别下降了4%和3%,在噪声环境下分别下降了9%和5%,有效地改善了非特定人语音识别系统的性能。相似文献

12.

维吾尔语方言识别及相关声学分析 总被引：1，自引：0，他引：1

下载免费PDF全文

孙杰吾守尔·斯拉木热依曼·吐尔逊张晶晶《声学学报》2019,44(6):1083-1092

根据语音识别和声纹识别等语音应用研究的实际需要,首次对和田方言的声学特性和识别进行研究。首先选取和田方言语音进行人工多层级标注,对元音的共振峰、时长和音强进行统计分析,描绘出和田方言主体格局及男性和女性的发音特点。然后运用方差分析和非参数分析法对维吾尔语3种方言的共振峰样本进行检验,结果表明3种方言的男性元音、女性元音及整体元音的共振峰分布模式存在显著差异。最后,分别构建基于GMM-UBM (Gaussian Mixture Model-Universal Background Model)、DNN-UBM (Deep Neural Networks-Universal Background Model)和LSTM-UBM (Long Short Term MemoryUniversal Background Model)维吾尔语方言识别模型,对基于梅尔频率倒谱系数及其与共振峰频率组合做输入特征提取的方言i-vector区分性进行对比实验。实验结果表明融入共振峰系数的组合特征可以增加方言的辨识度,且LSTM-UBM模型较GMM-UBM和DNN-UBM能提取到更具区分性的方言i-vector。相似文献

13.

基于Transformer编码器的合成语声检测系统

下载免费PDF全文

万伊杨飞然杨军《应用声学》2023,42(1):26-33

自动说话人认证系统是一种常用的目标说话人身份认证方案,但它在合成语声的攻击下表现出脆弱性,合成语声检测系统试图解决这一问题。该文提出了一种基于Transformer编码器的合成语声检测方法,利用自注意力机制学习输入特征内部的长期依赖关系。合成语声检测问题并不关注句子的抽象语义特征,用参数量较小的模型也能得到较好的检测性能。该文分别测试了4种常用合成语声检测特征在Transformer编码器上的表现,在国际标准的ASVspoof2019挑战赛的逻辑攻击数据集上,基于线性频率倒谱系数特征和Transformer编码器的系统等错误率与串联检测代价函数分别为3.13%和0.0708,且模型参数量仅为0.082 M,在较小参数量下得到了较好的检测性能。相似文献

14.

矢量泰勒级数特征补偿的说话人识别 总被引：2，自引：0，他引：2

吴海洋杨飞然周琳吴镇扬《声学学报》2013,38(1):105-112

将矢量泰勒级数(Vector Taylor Series,VTS)特征补偿算法应用于说话人识别,给出了卷积噪声方差的近似闭式解,构建了联合快速估计卷积噪声和加性噪声均值和方差的框架。该算法可在无需失配环境先验信息的前提下,直接从失配语音中估计出卷积噪声和加性噪声的均值和方差,实现对环境失配的补偿。实验结果表明,在信道变化较大的无线信道下,卷积噪声方差的补偿最高可降低误识率3.24%.提升了系统的识别性能。在存在加性噪声的无线信道下,与基于线性失真模型的特征映射算法和倒谱均值减算法相比,本文算法可分别最大降低49.65%和68.06%的误识率,适合于信道变化较大的失配环境补偿。相似文献

15.

改进的梅尔倒谱系数在低空飞行器特征提取中的应用*

下载免费PDF全文

肖寒春郭俊峰张丽《应用声学》2018,37(6):909-915

梅尔倒谱系数特征提取技术依据人耳的感知特性将声信号从线性频域转换到梅尔域,在语音识别中得到广泛应用。该文将梅尔倒谱系数技术用于小型低空飞行器的声信号特征提取中,并针对螺旋桨驱动类的小型低空飞行器具有稳定的强谐波特性,对梅尔倒谱系数特征提取中使用的梅尔滤波器进行改进,通过对此类谐波处的线性频谱与梅尔谱转换曲线的斜率进行投影替换,提高滤波器对该谐波处信号的感知敏感度。仿真结果表明,使用改进的梅尔倒谱系数特征提取方法对小型低空飞行器进行特征提取时,能够得到更低的等误识率,并且在低信噪比环境中,改进的梅尔倒谱系数特征提取方法具有更好的抗噪能力。相似文献

16.

Whispered speaker identification based on feature and model hybrid compensation

GU Xiaojiang ZHAO Heming LU|¨ Gang 《声学学报：英文版》2012,(4):499-508

In order to increase short time whispered speaker recognition rate in variable channel conditions,the hybrid compensation in model and feature domains was proposed.This method is based on joint factor analysis in training model stage.It extracts speaker factor and eliminates channel factor by estimating training speech speaker and channel spaces.Then in the test stage,the test speech channel factor is projected into feature space to engage in feature compensation,so it can remove channel information both in model and feature domains in order to improve recognition rate.The experiment result shows that the hybrid compensation can obtain the similar recognition rate in the three different training channel conditions and this method is more effective than joint factor analysis in the test of short whispered speech. 相似文献

17.

模型与特征混合补偿法及其在耳语说话人识别中的应用

下载免费PDF全文

顾晓江赵鹤鸣吕岗《声学学报》2012,37(2):198-203

为了提高信道差异下短时耳语说话人的识别率,提出了一种在模型域和特征域进行混合补偿的方法。该方法首先在模型训练阶段以联合因子分析法为基础,通过估计训练语音的说话人空间和信道空间,提取出说话人因子,消除信道因子,其次在测试阶段,将测试语音的信道因子映射到特征空间,实施特征补偿,从而在模型和特征两方面去除信道信息,提高识别率。实验结果显示,在三种不同的信道训练环境下,混合补偿法都取得了相似的识别率,且新方法对短时耳语音的测试效果要优于联合因子分析法。相似文献

18.

A modified voice conversion algorithm using compressed sensing

JIAN Zhihua ;WANG Xiangwen 《声学学报：英文版》2014,(3):323-333

A voice conversion algorithm,which makes use of the information between continuous frames of speech by compressed sensing,is proposed in this paper.According to the sparsity property of the concatenated vector of several continuous Linear Spectrum Pairs（LSP）in the discrete cosine transformation domain,this paper utilizes compressed sensing to extract the compressed vector from the concatenated LSPs and uses it as the feature vector to train the conversion function.The results of evaluations demonstrate that the performance of this approach can averagely improve 3.21%with the conventional algorithm based on weighted frequency warping when choosing the appropriate numbers of speech frame.The experimental results also illustrate that the performance of voice conversion system can be improved by taking full advantage of the inter-frame information,because those information can make the converted speech remain the more stable acoustic properties which is inherent in inter-frames. 相似文献

19.

Exploiting independent filter bandwidth of human factor cepstral coefficients in automatic speech recognition

Skowronski MD Harris JG 《The Journal of the Acoustical Society of America》2004,116(3):1774-1780

Mel frequency cepstral coefficients (MFCC) are the most widely used speech features in automatic speech recognition systems, primarily because the coefficients fit well with the assumptions used in hidden Markov models and because of the superior noise robustness of MFCC over alternative feature sets such as linear prediction-based coefficients. The authors have recently introduced human factor cepstral coefficients (HFCC), a modification of MFCC that uses the known relationship between center frequency and critical bandwidth from human psychoacoustics to decouple filter bandwidth from filter spacing. In this work, the authors introduce a variation of HFCC called HFCC-E in which filter bandwidth is linearly scaled in order to investigate the effects of wider filter bandwidth on noise robustness. Experimental results show an increase in signal-to-noise ratio of 7 dB over traditional MFCC algorithms when filter bandwidth increases in HFCC-E. An important attribute of both HFCC and HFCC-E is that the algorithms only differ from MFCC in the filter bank coefficients: increased noise robustness using wider filters is achieved with no additional computational cost. 相似文献