排序方式: 共有4条查询结果,搜索用时 0 毫秒
1
1.
2.
针对特定音频事件识别技术在大数据音频处理任务中的准确性和快速性问题,提出一种基于2D-Haar声学特征超向量和AdaBoost算法的快速特定音频事件泛化识别方法。首先将多个连续音频帧的常用声学特征构成“声学特征图”,进而提取维数高达数十万的Haar-like声学特征,然后使用AdaBoost.MH或速度较快的Random AdaBoost特征筛选算法,筛选出较高代表性的Haar-like声学特征模式组合,从而构成2D-Haar声学特征超向量;最后分析特定音频事件子类间的共性和差异性,提取子类别的共性,弱化子类间的差异,训练后得到一个泛化的音频事件模板,可支持多子类的泛化识别,能够准确检测并定位音频流中的特定音频事件。实验结果表明,使用2D-Haar声学特征超向量可以获得比MFCC,PLP,LPCC等常用声学特征约5%的识别精度提升、7~20倍的训练速度提升和5-10倍的识别速度提升,在网格法寻得最优参数配置下,可获得93.38%的准确率,95.03%的查全率,这为大数据量的特定音频事件识别提供了一种准确快速的处理方法。 相似文献
3.
在分析信息融合和模糊神经网络理论的基础上,构造出具有质量信息的模糊神经网络信息融合结构.通过模糊神经网络对信源本身、环境因素、人为因素等各种因素的处理给出各个信源的置信度因子,再将置信因子与各信源的报告数据统一进行融合处理,可提高各信源的可信度,从而提高融合系统的可靠性和有效性,使系统的整体性能加强. 相似文献
4.
实时音频流中对大规模音频样例进行检索时,在保证准确率的条件下,检索速度直接影响音频流实时处理能力。提出一种基于双哈希索引的大规模音频样例检索方法。该方法通过对大规模音频样例的音频特征进行自相似量化后,分别根据自相似序列的分段向量均值和模值建立线性双哈希索引,然后在音频流中进行搜索,最后对搜索结果利用音频的时序和空间信息进行判断得到检索结果。实验结果表明,本方法实现了大规模音频样例的一次检索,且当采用12维MFCC音频特征,音频样例时长为16 s、音频样例规模小于3100时,音频样例的检索准确率在90%以上,检索速度大于12000倍速,最高达到16000倍速。该方法在有效提高检索精度的基础上,保证较高的检索速度。 相似文献
1