首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
实时音频流中对大规模音频样例进行检索时,在保证准确率的条件下,检索速度直接影响音频流实时处理能力。提出一种基于双哈希索引的大规模音频样例检索方法。该方法通过对大规模音频样例的音频特征进行自相似量化后,分别根据自相似序列的分段向量均值和模值建立线性双哈希索引,然后在音频流中进行搜索,最后对搜索结果利用音频的时序和空间信息进行判断得到检索结果。实验结果表明,本方法实现了大规模音频样例的一次检索,且当采用12维MFCC音频特征,音频样例时长为16 s、音频样例规模小于3100时,音频样例的检索准确率在90%以上,检索速度大于12000倍速,最高达到16000倍速。该方法在有效提高检索精度的基础上,保证较高的检索速度。   相似文献   

2.
为解决背景音及噪音等条件下音频检索识别率低的问题,提出静音掩蔽和频域分段的音频指纹检索算法。首先采用端点检测技术进行语音预处理,将有效语音帧重新组合并利用相邻子带能量差对其提取指纹特征,可有效解决静音帧指纹特征不鲁棒的问题。然后在检索匹配时根据不同音频信号在频域范围内的分布特点,对音频指纹在不同频率区间进行分段和加权,以更精确地计算模板和待检音频之间的相似度。实验表明,与Philips基线算法相比,所提算法在检索速度上提升了一倍,在受背景音等干扰的数据集上,平均准确率与召回率分别绝对提升17.94%和4.66%;与最新Philips算法相比,平均准确率与召回率分别绝对提升13.68%和2.45%。   相似文献   

3.
王猛  张鹏远 《声学学报》2022,47(6):717-726
为解决短时音频场景识别任务中识别性能差的问题,提出一种融合多尺度特征的音频场景识别方法。首先将双声道音频中左右声道的和差作为输入,并使用长时帧长进行分帧处理,以保证提取出的帧级特征中包含足够多的音频信息。然后将特征逐帧输入到融合多尺度特征的一维卷积神经网络中,以充分利用网络中不同尺度的浅层、中层和深层嵌入特征。最后综合所有帧级软标签得到短时音频的场景分类结果。实验结果表明,该方法在国际声学场景和事件检测与分类挑战赛(DCASE) 2021短时音频场景数据集上的准确率为79.02%,实现了该数据集上目前为止的最优性能。  相似文献   

4.
李艳凤  陈后金  曹霖  韩振中  程琳 《物理学报》2014,63(20):208701-208701
在乳腺X线图像肿块检测中存在较高的假阳性率,通过基于内容的肿块检索,将待判定肿块与已确诊肿块进行相似性分析,可有效降低假阳性率.本文提出了一种结合可区分锚点图哈希和线性近邻传递的乳腺图像肿块检索方法.针对传统锚点图哈希在相似度定义中没有考虑病理相关性的问题,引入病理类别至锚点图哈希图像相似度计算,提出了可区分锚点图哈希以重新表示图像.利用线性近邻传递作为相关反馈技术,基于图像底层特征表达与图像高层语义间的学习机制,实现交互式肿块图像检索.采用北京大学人民医院乳腺中心提供的临床图像作为实验数据,实验结果表明,引入病理类别的可区分锚点图哈希图像表达在肿块相似性分析上优于传统锚点图哈希.相比于现有方法,本文提出的方法在肿块检索性能上得到明显提高.  相似文献   

5.
基于音节Lattice的汉语语音检索技术及其索引去冗余方法   总被引:4,自引:0,他引:4  
针对网络中越来越多的语音数据,人们迫切地需要基于语义内容的快速、准确的语音检索技术.本文在基于音节Lattice的汉语语音检索研究中,针对传统的向量空间模型检索方法的不足,提出了一种基于词检出实现的语音榆索方法.并针对Lattice索引存在的信息冗余问题,提出了一种基于音节后验概率直方图的索引去冗余方法.实验结果表明,本文的检索方法在性能上明显优于向量空间模型方法;而提出的索引去冗余方法达到了大规模缩减索引尺寸加快检索速度的目的.  相似文献   

6.
针对特定音频事件识别技术在大数据音频处理任务中的准确性和快速性问题,提出一种基于2D-Haar声学特征超向量和AdaBoost算法的快速特定音频事件泛化识别方法。首先将多个连续音频帧的常用声学特征构成"声学特征图",进而提取维数高达数十万的Haar-like声学特征,然后使用AdaBoost.MH或速度较快的Random AdaBoost特征筛选算法,筛选出较高代表性的Haar-like声学特征模式组合,从而构成2D-Haar声学特征超向量;最后分析特定音频事件子类间的共性和差异性,提取子类别的共性,弱化子类间的差异,训练后得到一个泛化的音频事件模板,可支持多子类的泛化识别,能够准确检测并定位音频流中的特定音频事件。实验结果表明,使用2D-Haar声学特征超向量可以获得比MFCC,PLP,LPCC等常用声学特征约5%的识别精度提升、7~20倍的训练速度提升和5-10倍的识别速度提升,在网格法寻得最优参数配置下,可获得93.38%的准确率,95.03%的查全率,这为大数据量的特定音频事件识别提供了一种准确快速的处理方法。  相似文献   

7.
针对特定音频事件识别技术在大数据音频处理任务中的准确性和快速性问题,提出一种基于2D-Haar声学特征超向量和AdaBoost算法的快速特定音频事件泛化识别方法。首先将多个连续音频帧的常用声学特征构成“声学特征图”,进而提取维数高达数十万的Haar-like声学特征,然后使用AdaBoost.MH或速度较快的Random AdaBoost特征筛选算法,筛选出较高代表性的Haar-like声学特征模式组合,从而构成2D-Haar声学特征超向量;最后分析特定音频事件子类间的共性和差异性,提取子类别的共性,弱化子类间的差异,训练后得到一个泛化的音频事件模板,可支持多子类的泛化识别,能够准确检测并定位音频流中的特定音频事件。实验结果表明,使用2D-Haar声学特征超向量可以获得比MFCC,PLP,LPCC等常用声学特征约5%的识别精度提升、7~20倍的训练速度提升和5-10倍的识别速度提升,在网格法寻得最优参数配置下,可获得93.38%的准确率,95.03%的查全率,这为大数据量的特定音频事件识别提供了一种准确快速的处理方法。   相似文献   

8.
提出了一种使用相似度矩阵辅助遥感图像无监督哈希跨模态关联的方法,解决哈希码转化过程中造成的部分语义信息的损失问题。利用构建的原始特征以及哈希特征的相似度矩阵整合不同模态间的语义相关信息,以尽可能地保留模态内以及不同模态间语义的相关性,通过相似度矩阵间的语义对齐减小原始特征转换为哈希编码的特征信息损失,并结合对比学习的方法有效提高了遥感图像文本间无监督哈希跨模态关联效果。在两个公开数据集上的实验验证表明,所提方法优于现有基准方法,具有较好的性能。  相似文献   

9.
针对计算机视觉领域的人脸图像检索问题,提出了一种基于深度特征的快速人脸图像检索方法。该方法首先使用人脸图像训练集对深度卷积神经网络模型进行人脸分类训练;在此基础上采用三元组损失方法对已训练好的人脸分类网络模型进行微调,使得网络能够更加有效地提取人脸特征构建高效的特征向量进行人脸检索初步过滤;最后,为了进一步提高系统检索性能,提出一阶段查询扩展方法对待检索人脸图像特征向量进行融合加强。在两个公用人脸数据集(CASIA-3DFaceV1和Labeled Faces in the Wild dataset)上进行详尽的实验验证,结果表明,基于深度特征的人脸图像检索方法不仅能够显著提高检索结果的准确率,而且该方法简单可靠,能够快速地实现人脸检索任务。  相似文献   

10.
现有的密文检索技术主要是采用的是布尔模型,它无法精确的计算出检索项与待检索文件的相关度,不能按相似度进行精确的排序。针对以上情况,结合同态加密技术和基于TF-IDF的向量空间模型技术,提出了一个基于向量空间模型全同态环境下的密文检索方案BVH(Based Vector space model and Homomorphism ciphertext retrieval scheme),BVH主要分为三个步骤:第一是预处理阶段,主要对上传的文件建立倒排索引,生成文件向量集,计算各个文件向量的模,对文件向量集和要上传的文件加密以密文的形式上传到云端。第二个阶段是检索阶段,主要是将搜索词的向量密文和各个文件向量的密文相乘将结果以密文的形式返回给客户端。第三个阶段结果处理阶段,主要是对解密后的结果进行相应的计算处理,对最后的处理结果按相似度大小排序。经分析,该方案在准确率和检索效率方面都得到了较大提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号