首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 59 毫秒
1.
提出了一种把音频片段分类成语音或音乐的新系统.系统能自动选取在相应的信噪比下具有最高分类精度的特征参数.将从音频片段提取的特征参数值与门限值相比较进行语音/音乐的分类,其中的门限值与一定的信噪比相适应.介绍了一种新特征参数,即低频带能量率方差,在低信噪比环境下,它对分类精度有很大地提高.考察了系统在不同的信噪比环境下的分类性能.实验结果表明,所提系统分类性能良好.  相似文献   

2.
介绍了一种简单而有效的区分语音/音乐的方法.该方法仅提取唯一的区别性特征,即改进型低能量帧率(MLER),应用贝叶斯最大后验分类器判断每1段的音频类别,再根据音频流的相邻段有很强的相关性这一特点,采用一种新颖的基于相关性的后验决策方法对分类器的分类结果进行进一步改善.实验结果表明,该方法算法简单,分类效果好.  相似文献   

3.
音频数据检索是数字化信息检索的迫切需要,传统的基于文本的音频检索技术存在主观性和不完整性等缺点,而且不支持实时音频检索.本文根据音频检索的研究现状,论述了基于内容的音频检索方法,讨论了一些音频检索的关键技术.  相似文献   

4.
一种稳健的基于解卷叠的相位差分瞬时测频方法   总被引:1,自引:0,他引:1  
首先讨论了基于相位差分的Kay估计器及频率测量的Cromer—Rao界,针对Kay法中归一化频率绝对值较高时的高信噪比(SNR)阈值问题,提出了一种自适应门限相位解卷叠方法。仿真表明,自适应门限的解卷叠方法具用很强的稳健性。在相位解卷叠基础上给出了适合硬件实现的瞬时测频方法及其处理框图,这种方法计算量小,且适合实时处理。  相似文献   

5.
建立了一种基于自组织神经网络的语音识别系统。对语音信号进行了预处理,提取了语音信号的线性预测系数、线性预测倒谱系数和Mel倒谱特征系数,建立了基于自组织神经网络的识别判决模型。深入分析和改进了自组织神经网络的分类聚类能力,通过加强训练和设定阈值函数的方法,有效地确定了边界神经元的归属,划分出了合理的输出模式类。验证了自组织神经网络适合于处理孤立词语音识别,并具有快速性和结构简单等特征。MATLAB仿真实验表明,语音识别率达到96%。  相似文献   

6.
一种基于音调的语音/音乐实时分类算法   总被引:1,自引:1,他引:0  
语音/音乐的实时分类,在语音/音乐通用编码器中是尤其重要的。分析了语音和音乐的区别性特征,提出了一种利用音调分布特性和频谱倾斜度对语音和音乐进行实时分类的算法,并对分类结果进行简单平滑,使分类更为合理,从而提高音质。实验结果表明,此算法复杂度低,而且分类准确率高,实用性强。  相似文献   

7.
一种计算数字音频压缩中掩蔽门限的方法   总被引:1,自引:0,他引:1  
本文提出一种估计听觉掩蔽门限的算法,利用这种算法得到的计算结果与实测曲线相吻合,而且该算法复杂度低,运算量小,实时性强,可以用于多种形式的高质量数字间频压缩方案。  相似文献   

8.

一致迭代硬阈值(CIHT)算法在处理音频截幅失真中具有较好的性能。但是,在截幅程度较大时音频截幅修复的性能会下降。因此,该文提出一种基于自适应门限的改进算法。该算法自动估计音频信号截幅程度,根据估计的截幅程度信息,自适应调整算法中的截幅程度因子。与近年来提出的CIHT算法和一致字典学习算法(CDL)相比,该文所提算法能更好地重建音频信号,特别在音频信号截幅失真严重的情况。该算法的运算复杂度与CIHT相近,与CDL相比,拥有更快的运行速度,有利于实时实现。

  相似文献   

9.
本文提出一种估计听觉掩蔽门限的算法,利用这种算法到的计算结果与实测曲线的线相吻合,而且该算法复杂度低,运算量小,实时性强,可以用于多种形式的高质量数字音频压缩方案。  相似文献   

10.
张琦  唐斌 《信号处理》2018,34(1):13-20
在快拍数较少且多个输入期望信号功率差异较大的情况下,针对多数自适应多波束形成算法难以同时保持强弱期望信号波束稳健性的问题,文中联合子空间变换技术以及对角加载技术对协方差矩阵进行重构,提出了一种基于协方差矩阵重构的稳健自适应多波束形成算法。该算法不仅能够在快拍数较少且多个期望信号功率差异较大情况下同时保持各波束主波束无畸变,而且能够保持各波束零陷的稳健性。最后,通过波束图对比仿真实验分析验证了重构协方差矩阵对强弱期望信号波束主瓣与零陷稳健性的提升,并且通过输出信干噪比对比实验证明了文中提出的自适应多波束形成算法抗干扰性能更优。   相似文献   

11.
We propose a novel feature processing technique which can provide a cepstral liftering effect in the log‐spectral domain. Cepstral liftering aims at the equalization of variance of cepstral coefficients for the distance‐based speech recognizer, and as a result, provides the robustness for additive noise and speaker variability. However, in the popular hidden Markov model based framework, cepstral liftering has no effect in recognition performance. We derive a filtering method in log‐spectral domain corresponding to the cepstral liftering. The proposed method performs a high‐pass filtering based on the decorrelation of filter‐bank energies. We show that in noisy speech recognition, the proposed method reduces the error rate by 52.7% to conventional feature.  相似文献   

12.
提出一种基于决策的语音与乐音信号的分类算法,通过提取输入信号的幅度信息、频谱分布特征信息用于信号的分类的特征参数,再利用决策树中的ID3算法进行分类,并对分类结果进行后期调整,进一步提高算法分类的正确率。实验结果表明,提出的语音与乐音信号分类算法取得了平均96.12%的正确率。  相似文献   

13.
压缩域鲁棒音乐指纹算法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
刘亚多  李伟  李晓强  汪竹蓉  冯瑞 《电子学报》2010,38(5):1172-1176
对互联网海量MP3格式音乐数据进行基于内容的有效检索是当前一个重要而又很少涉及的研究方向.本文提出一种基于MDCT频谱熵的压缩域音频指纹算法,对各种常规频域和时间域的音频信号处理失真具有较强的鲁棒性.模拟实验在包含100首不同中文流行歌曲的音乐数据库上进行.对经受各种严重信号处理失真的粒度为5s左右的查询片段,能够取得超过90%的首位正确识别率.  相似文献   

14.
训练环境和测试环境的不匹配是造成实际情况下语音识别性能下降的主要原因。在深入研究语音识别的噪声环境和Mel域倒谱系数(MFCC)流程的基础上,基于累计分布函数匹配思想,给出了3种通过减小训练环境和测试环境的不匹配度来提高系统在不同环境下适应性的鲁棒性特征提取方法,分析了它们的理论基础、基本算法,并在Aurora2.0数据库上进行了实现,验证了方法的有效性,为实际应用中如何选择语音识别系统提供了参考。  相似文献   

15.
Hereafter, we present a new approach dealing to cope with the harmful effects of noise on speech recognition systems (SRS). This approach is oriented to hardware redundancy and it is essentially a modification of the classic Recovery Blocks scheme. When compared to conventional approaches using Fast Fourier Transform (FFT) and Hamming Code, the primary benefit of such a technique is to improve system performance when operating in real (i.e., noisy) environments. The second advantage is related to the considerably low complexity and reduced area overhead required for implementation. We implemented three full versions of the proposed algorithm: one running of a PC microcomputer, and a second one slightly modified to run on a TMS-320C67 Texas DSP microprocessor module. Both of them were described in the C language. Finally, a last implementation was prototyped on a HW-SW development environment based on the same Texas microprocessor and on the FLEX10K20 FPGA Altera Component.  相似文献   

16.
二维场景阴影区域的自动鲁棒分割   总被引:8,自引:0,他引:8  
管业鹏  顾伟康 《电子学报》2006,34(4):624-627
基于HSV彩色空间的色调值融合RGB色彩模型中的蓝色分量信息,提出了鲁棒而有效的二维彩色图像阴影区域自动分割方法.根据阴影与非阴影区域间存在色调差异,利用HSV彩色模型,提取可能阴影区域.为消除提取出的阴影区域中偏蓝物体影响,采用RGB彩色空间中的蓝色分量为模板,计算该模板与提取出的阴影区域间的直方图.采用单阈值化分割方法,确定该直方图阈值.将蓝色分量值低于该阈值的阴影区域确定为有效阴影区域.通过对不同光照下的实际自然场景图像的阴影检测,实验结果表明文中所提方法是有效可行的.  相似文献   

17.
耿玉亮  须德 《电子学报》2006,34(7):1342-1346
摄像机运动分类是基于内容的视频分析和理解的重要问题.本文通过对运动矢量场的分析,提出了一种基于统计学习的、分层次的摄像机运动分类算法.该算法利用支持向量机(SVM)在有限样本条件下的学习能力,实现摄像机运动类型的初步分类;然后,充分考虑运动矢量场的方向和位置信息,进一步区分缩放和旋转操作,并识别摄像机平移操作的方向.算法在运动矢量的预处理过程中引入摄影规则,有效地降低了前景运动噪声的影响.  相似文献   

18.
基于鲁棒听觉特征的说话人识别   总被引:3,自引:0,他引:3  
林琳  陈虹  陈建 《电子学报》2013,41(3):619-624
 为了提高噪声环境中说话人识别系统的性能,本文提出了一种鲁棒听觉特征提取的算法,并将其应用到说话人识别系统中.运用自适应压缩Gammachirp滤波器组模拟人耳耳蜗的听觉特性,对输入的语音信号进行频域子带滤波,将得到的对数子带能量作为听觉特征参数.分别运用离散余弦变换和核主成分分析方法,对提取的特征参数进行特征变换,降低特征参数的维数,提高特征参数的噪声鲁棒性和个性表现力.实验结果表明,将提取的新听觉特征参数应用到说话人识别系统中,新特征参数在鲁棒性和识别性能上均优于梅尔倒谱系数和基于Gammatone的听觉特征参数.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号