期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

梁春燕张翔杨琳张建平颜永红《声学学报》2012,37(6):673-678

研究最小方差无失真响应感知倒谱系数在说话人识别中的应用。提取最小方差无失真响应感知倒谱系数,对其进行高斯混合模型建模并采用联合因子分析的方法来拟合高斯混合模型中的说话人和信道差异,在美国国家标准技术研究院2008年说话人识别评测核心测试集上分别对最小方差无失真响应感知倒谱系数和传统的Mel频率倒谱系数进行测试。结果显示,两种不同特征的系统性能相当,采用线性融合方法后,在不同测试集上的等错误率相对下降了7.6%~30.5%,最小检测错误代价相对下降了3.2%~21.2%。实验表明,最小方差无失真响应感知倒谱系数能有效应用于说话人识别中,且与传统的Mel频率倒谱系数存在一定程度的互补性。相似文献

2.

韵律特征在概率线性判别分析说话人确认中的应用

梁春燕杨琳周若华颜永红《声学学报》2015,40(1):28-33

研究韵律特征在说话人确认中的应用。将整个韵律轨迹以固定段长和段移进行片段划分,并对其进行勒让德多项式拟合从而获取连续性的韵律特征,将特征映射到总变化因子空间,并用概率线性判别分析来补偿说话人和场景的差异。在美国国家标准技术研究院2010年说话人识别评测扩展核心测试集5的基础上加入噪声构造测试集,并分别对韵律特征和传统Mel频率倒谱系数进行测试。结果显示,随着信噪比的逐渐减小,Mel频率倒谱系数性能出现大幅度下降,而韵律特征性能相对比较稳定,两种特征融合后能使系统性能得到进一步提升,等错率和最小检测错误代价相对于Mel频率倒谱系数单系统最多能分别下降9%和11%。实验表明,韵律特征应用于说话人识别中具有较强的噪声鲁棒性,且与传统的Mel频率倒谱系数存在较强的互补性。相似文献

3.

韵律特征在概率线性判别分析说话人确认中的应用

《声学学报：英文版》2015,(1)

研究韵律特征在说话人确认中的应用。将整个韵律轨迹以固定段长和段移进行片段划分,并对其进行勒让德多项式拟合从而获取连续性的韵律特征,将特征映射到总变化因子空间,并用概率线性判别分析来补偿说话人和场景的差异。在美国国家标准技术研究院2010年说话人识别评测扩展核心测试集5的基础上加入噪声构造测试集,并分别对韵律特征和传统Mel频率倒谱系数进行测试。结果显示,随着信噪比的逐渐减小,Mel频率倒谱系数性能出现大幅度下降,而韵律特征性能相对比较稳定,两种特征融合后能使系统性能得到进一步提升,等错率和最小检测错误代价相对于Mel频率倒谱系数单系统最多能分别下降9%和11%。实验表明,韵律特征应用于说话人识别中具有较强的噪声鲁棒性,且与传统的Mel频率倒谱系数存在较强的互补性。相似文献

4.

基于补偿距离估计的光纤振动信号特征提取算法

许海燕寇庆康谢迎娟朱俊李敏《光子学报》2022,(4):49-59

为进一步提高光纤振动信号模式识别的实时性及准确性,提出一种基于补偿距离估计技术的信号特征提取算法.算法借鉴人类听觉感知机理,对光纤传感振动信号提取Mel频率倒谱系数特征向量,采用补偿距离估计技术制定特征筛选策略实现特征评估与优化.实验结果表明,基于补偿距离估计技术的振动信号特征提取算法可以有效减少光纤传感系统中影响分类... 相似文献

5.

基于SOPC软核的孤立词语音识别系统设计与实现

王志高秦子雄《广西物理》2013,(1):46-49

详细分析了目前语音识别系统中普遍采用的Mel频率倒谱系数(MFCC)特征参数的提取过程和动态时间规整(DTW)识别算法流程,提出了一种在NiosII SOPC软核平台上通过提取和分析语音信号的MFCC特征参数实现语音识别解决方案。相似文献

6.

一种机器人智能语音识别算法研究

周璐璐邓江洪《应用声学》2014,22(10):3267-32693273

针对智能机器人在非特定人语音识别中识别率偏低的问题,提出了一种双门限的端点检测算法,精确地检测出了语音端点,对分形维数和Mel频率倒谱系数(MFCC)进行结合,同时基于隐马尔可夫(HMM)模型,提出了智能机器人命令识别系统;在实验室环境下,利用Cool Edit软件录制了5男5女的语音,采样率为8 kHz,精度为16位,内容为5个命令词,每个词均被采集6次,将每人的前3次发音作为模板语音,后3次发音作为测试语音,实验结果表明,系统识别率可以达到85%以上,MFCC与分形维数混合的语音特征参数的算法提高了系统识别率,优化了系统性能;该方法用于非特定人语音智能识别是可行的、有效的。 相似文献

7.

BP神经网络在汉语数字语音识别中的应用

罗梅江丽莎罗涟玲《广西物理》2012,(3):26-28

从语音信号产生的数字模型出发,对1～10这10个汉语数字的语音信号进行预处理,提取了Mel频率倒谱系数,并将特征参数序列进行非线性时间规整为固定的帧数,使用BP神经网络的训练和识别,研究该方法的可行性和有效性。结果表明,在噪声环境下1,7,9的识别率为80%,而2,3,4,5,6,8,10的识别率都是100%,识别率主要受噪声、不同人的发音不同等因素的影响。该方法具有可行性强、识别率高的特点,可应用于语音识别系统。相似文献

8.

倒谱参数稀疏分解下的汉语音谎言检测

下载免费PDF全文

樊晓鹤赵鹤鸣陈雪勤周燕《声学学报》2018,43(1):121-128

为了提高汉语语音的谎言检测准确率,提出了一种对信号倒谱参数进行稀疏分解的方法。首先,采用小波包滤波器组对语音信号进行多频带划分,求得子频带对数能量并进行离散余弦变换以提取小波包频带倒谱系数,结合梅尔频率谱系数得到倒谱参数;其次,依据K-奇异值分解方法分别利用说谎和非说谎两种状态下的语音倒谱参数集训练得到过完备混合字典,在此字典上根据正交匹配追踪算法对参数集进行稀疏编码提取稀疏特征;最终进行多种分类模型下的识别实验·实验结果表明,稀疏分解方法相比传统参数降维方法具有更好的优化性能,本文推荐的稀疏谱特征最佳识别率达到78.34%,优于其他特征参数,显著提高了谎言检测识别准确率。相似文献

9.

基于一维卷积神经网络的光纤周界入侵模式识别

《光子学报》2021,50(9)

针对干涉型分布式光纤传感系统,在通过Mel倒谱系数方法提取扰动信号频域特征进行模式识别的研究基础上,提出了一种基于一维卷积神经网络的光纤入侵模式识别方法。利用还原信号的分级阈值判断并提取入侵信号,有效减少了分帧方法导致的计算时间;构建了基于入侵信号傅里叶变换后的频域信息的一维卷积神经网络,自适应地提取扰动的信号频域特征。搭建了基于直线型Sagnac干涉结构的入侵检测系统,利用大量实验采集的样本数据集对网络进行训练,得到了较好的分类识别结果,测试集的平均识别率达到了96.5%,并对训练后网络的卷积核以及经过卷积核后的入侵信号进行了分析。zscore标准化后,一维卷积神经网络能够识别信号频域中的部分特征,对频率成分复杂的树枝拍打信号识别效果提升较大。相似文献

10.

贝叶斯优化卷积神经网络公共场所异常声识别*

下载免费PDF全文

曾宇户文成《应用声学》2020,39(3):409-416

针对公共场所异常声的感知和识别问题,提出一种基于贝叶斯优化卷积神经网络的识别方法。提取声信号的Gammatone倒谱系数、倍频程功率谱、短时能量和谱质心,组合成声信号的特征图。构建卷积神经网络作为分类器,利用递增的卷积核设置和池化操作处理不同尺度的特征。基于贝叶斯优化算法优化卷积神经网络的模型参数,对包括火苗噼啪声、婴儿啼哭声、烟花燃放声、玻璃破碎声和警报声的5种公共场所异常声进行识别。该方法的识别结果与基于不同的特征提取和分类器方案得到的识别结果进行比较,结果表明该方法的识别效果优于其他特征提取和分类器方案的识别效果。最后分析了该方法在不同信噪比噪声干扰下的识别结果,验证了该方法的有效性。相似文献

11.

改进的梅尔倒谱系数在低空飞行器特征提取中的应用*

下载免费PDF全文

肖寒春郭俊峰张丽《应用声学》2018,37(6):909-915

梅尔倒谱系数特征提取技术依据人耳的感知特性将声信号从线性频域转换到梅尔域,在语音识别中得到广泛应用。该文将梅尔倒谱系数技术用于小型低空飞行器的声信号特征提取中,并针对螺旋桨驱动类的小型低空飞行器具有稳定的强谐波特性,对梅尔倒谱系数特征提取中使用的梅尔滤波器进行改进,通过对此类谐波处的线性频谱与梅尔谱转换曲线的斜率进行投影替换,提高滤波器对该谐波处信号的感知敏感度。仿真结果表明,使用改进的梅尔倒谱系数特征提取方法对小型低空飞行器进行特征提取时,能够得到更低的等误识率,并且在低信噪比环境中,改进的梅尔倒谱系数特征提取方法具有更好的抗噪能力。相似文献

12.

一种改进的DNN-HMM的语音识别方法* 总被引：2，自引：1，他引：1

下载免费PDF全文

李云红梁思程贾凯莉张秋铭宋鹏何琛王刚毅李禹萱《应用声学》2019,38(3):371-377

针对深度神经网络与隐马尔可夫模型(DNN-HMM)结合的声学模型在语音识别过程中建模能力有限等问题,提出了一种改进的DNN-HMM模型语音识别算法。首先根据深度置信网络(DBN)结合深度玻尔兹曼机(DBM),建立深度神经网络声学模型,然后提取梅尔频率倒谱系数(MFCC)和对数域的Mel滤波器组系数(Fbank)作为声学特征参数,通过TIMIT语音数据集进行实验。实验结果表明:结合了DBM的DNN-HMM模型相比DNN-HMM模型更具优势,其中,使用MFCC声学特征在词错误率与句错误率方面分别下降了1.26%和0.20%。此外,使用默认滤波器组的Fbank特征在词错误率与句错误率方面分别下降了0.48%和0.82%,并且适量增加滤波器组可以降低错误率。总之,研究取得句错误率与词错误率分别降低到21.06%和3.12%的好成绩。相似文献

13.

基于可见光波段的色彩概率聚类模型的玉米杂交种子识别 总被引：2，自引：0，他引：2

刘双喜张宏建王金星王震张春庆李岩《光谱学与光谱分析》2018,38(8):2516-2523

由于同一种玉米杂交种子籽粒的粒型多样、色彩随贮藏时间不同而不同,仅靠其形状和单一区域色彩的机器视觉方法识别种类较为困难,且现有识别算法多以高光谱特征作为分类基础,对于不同时期、不同种类的玉米杂交种子要分别训练分类识别器,识别前需要大量的训练工作。为提高玉米种子品种识别方法的适用性,根据花粉直感色彩遗传现象,提出以可见光波段玉米种子的多区域小波色彩特征作为识别参数,建立多模型的概率聚类模型进行玉米杂交种子种类识别。该方法首先采用专有设备采集单粒玉米种子的无胚芽侧和顶端两部分色彩信息,包括RGB,HIS和Lab色彩信息,对该色彩信息进行增强和特征优化选择,通过小波包分解提取优化出21维细节识别向量;其次采用不同聚类模型对优化后色彩特征进行聚类识别,建立基于SOM、K-means、两步法三种聚类识别模型;最后以多种聚类模型结果为基础,建立基于概率模型的玉米种子品种识别。通过对郑单958、先玉335、郑58(郑单958母本)、昌7-2(郑单958父本)、PH6WC(先玉335母本)、PH4CV(先玉335父本)的试验,发现该方法可有效识别非亲缘关系和父本亲缘关系的玉米种子,识别率可达到98%以上;而对于亲缘关系母本识别率可达到75%。采用可见光波段玉米种子多区域色彩特征,结合概率聚类模型的方法可为玉米杂交种子纯度在线检验识别提供科学依据。相似文献

14.

融合声纹信息的能量谱图在鸟类识别中的研究

下载免费PDF全文

杨春勇祁宏达彭焱秋尹滨侯金舒振宇陈少平《应用声学》2020,39(3):453-463

常用的梅尔倒谱系数结合高斯混合模型(MFCC+GMM)方法的鸟鸣声识别技术难适应噪声环境,模型难以收敛,且计算复杂度高。该文提出一种融合声纹信息的能量谱图的鸟类识别方法(VPS-BR),该方法利用鸟类鸣声在能量谱图上所表现的多维差异性,定量识别鸣声声纹特征。通过对分贝能量进行颜色映射得到能量谱图,提取其视觉特征所表达的声学特征,分析归纳得到鸟类特有鸣声模式。在特征提取步骤中,选用识别速度快的局部二值模式、识别鲁棒性高的方向梯度直方图两个参数表征鸟鸣声谱图的边缘声纹;在识别步骤中,用局部二值模式和方向梯度直方图两种特征分别与支持向量机、K最近邻和随机森林3种分类器算法进行两两组合构建识别模型测试。对15种原始带噪鸟类鸣声数据集进行交叉验证,VPS-BR模型的平均识别率比MFCC+GMM组合模型高出11.3%,方向梯度直方图特征与K最近邻分类器的组合模型识别率达90.5%,表现出较好的抗噪性能和识别性能。最后针对样本数据集缺乏问题,使用生成对抗网络进行图像增强,进一步将识别率提升1.48%。相似文献

15.

基于听觉模型的话者特征参数提取及其在噪声背景下的话者辨识

下载免费PDF全文

戴明扬徐柏龄《应用声学》2001,20(6):6-12,44

本文基于人耳听觉模型提出了一种鲁棒性的话者特征参数提取方法。该种方法中,首先由Gamma tone听觉滤波器组和Meddis内耳毛细胞发放模型获得表征听觉神经活动特性的听觉相关图。由听觉神经脉冲发放的锁相特性和双声抑制特性,我们将听觉相关图每个频带中的幅值最大频率分量作为表征当前频带特性的特征参量,于是所有频带的特征参量便构成了表征当前语音段特性的特征矢量;我们采用DCT交换进一步消除各个特征参量之间的相关性,压缩特征矢量的维数。有效性试验表明,该种特征矢量基本上反映了输入语音的谱包络特性;抗噪声性能实验表明,在高斯白噪声和汽车噪声干扰下,这种特征参数比LPCC和MFCC有较小的相对失真;基于矢量量化的文本无关话者辨识表明,对于三种类型的噪声干扰该种特征参数在低信噪比下都获得了较好的识别结果。相似文献

16.

Music/voice separation based on the multi-repeating structure of Mel cepstrum coefficient

《声学学报：英文版》2015,(4)

For the poor adaptability of the original repeating pattern,an improved music separation method of multi-repeating structure of Mel cepstrum coefficient(MFCC) is proposed.Firstly,the MFCC coefficient matrix(39-dimensional data) of the music signal was extracted.Then the cosine characteristic was applied to the count of similarity matrix of MFCC,and the fragments with consistent similarity are putted together.Next different repeating patterns are built for different groups.Thereby the spectrums of the background music and vocal were separated combined with ideal binary masking(IBM),and the corresponding time domain signals were obtained by inverse Fourier transform.Fnally,the improved method was tested on the music database of different types and length,and the separation results were compared with repeating method of Rafii and the non-negative matrix factorization based on flexible framework method of Ozerov.The experimental results showed that the separation performance of improved method was improved about 3 dB,and the performance of music with melody changed larger was significantly improved.Experiments verified that the improved method was an effective music separation algorithm and more stability. 相似文献

17.

水下声目标的梅尔倒谱系数智能分类方法

下载免费PDF全文

张少康田德艳《应用声学》2019,38(2):267-272

传统水下声目标识别分类方法具有较强的人机交互特性,无法满足未来水下无人平台智能识别分类水声目标的需求。针对这一问题,提出了一种基于梅尔倒谱系数（MFCC）的水下声目标智能识别分类方法,该方法通过提取水下声目标梅尔倒谱系数特征,采用长短时记忆网络（LSTM）构建了智能识别分类模型。使用实际水声信号对该方法进行了验证,结果表明,基于梅尔倒谱系数的水下声目标智能识别分类方法能够在不依赖人工提取特征的情况下,对目标噪声进行识别分类,具备智能化识别分类能力。相似文献

18.

Exploiting independent filter bandwidth of human factor cepstral coefficients in automatic speech recognition

Skowronski MD Harris JG 《The Journal of the Acoustical Society of America》2004,116(3):1774-1780

Mel frequency cepstral coefficients (MFCC) are the most widely used speech features in automatic speech recognition systems, primarily because the coefficients fit well with the assumptions used in hidden Markov models and because of the superior noise robustness of MFCC over alternative feature sets such as linear prediction-based coefficients. The authors have recently introduced human factor cepstral coefficients (HFCC), a modification of MFCC that uses the known relationship between center frequency and critical bandwidth from human psychoacoustics to decouple filter bandwidth from filter spacing. In this work, the authors introduce a variation of HFCC called HFCC-E in which filter bandwidth is linearly scaled in order to investigate the effects of wider filter bandwidth on noise robustness. Experimental results show an increase in signal-to-noise ratio of 7 dB over traditional MFCC algorithms when filter bandwidth increases in HFCC-E. An important attribute of both HFCC and HFCC-E is that the algorithms only differ from MFCC in the filter bank coefficients: increased noise robustness using wider filters is achieved with no additional computational cost. 相似文献

19.

A rapid audio event detection method by adopting 2D-Haar acoustic super feature vector

《声学学报：英文版》2015,(2)

For accuracy and rapidity of audio event detection in the mass-data audio processing tasks,a generic method of rapidly recognizing audio event based on 2D-Haar acoustic super feature vector and AdaBoost is proposed.Firstly,it combines certain number of continuous audio frames to be an "acoustic feature image",secondly,uses AdaBoost.MH or fast Random AdaBoost feature selection algorithm to select high representative 2D-Haar pattern combinations to construct super feature vectors;thirdly,analyzes the commonality and differences between subcategories,then extracts common features and reduces different features to obtain a generic audio event template,which can support the accurate identification of multiple sub-classes and detect and locate the specific audio event from the audio stream accurately.Experimental results show that the use of 2D-Haar acoustic feature super vector can make recognition accuracy 5% higher than ones that MFCC,PLP,LPCC and other traditional acoustic features yielded,and can make the training processing 7-20 times faster and the recognition processing 5-10 times faster,it can even achieve an average precision of 93.38%,an average recall of 95.03% under the optimal parameter configuration found by grid method.Above all,it can provide an accurate and fast mass-data processing method for audio event detection. 相似文献

20.

圈养瓶鼻海豚通讯信号分析及融合分类方法

下载免费PDF全文

张晓伟张春华薛山花尹力《声学学报》2022,47(5):643-651

针对圈养条件下瓶鼻海豚通讯信号（whistle）分类时混叠大量回声定位信号（click）导致分类正确率降低的问题,提出了一种基于机器学习的融合分类方法。分别提取whistle信号的时频分布特征训练随机森林分类器,梅尔时频图特征训练卷积神经网络分类器,在此基础上设计融合判决器对混叠whistle信号进行分类识别。对圈养海豚声信号采集实验数据的分类识别结果表明,融合分类方法具有更好的分类性能,对混叠whistle信号分类正确率大于94%,优于时频分布特征分类器和梅尔时频图特征分类器,能够提高混叠信号的分类能力。相似文献