排序方式: 共有7条查询结果,搜索用时 0 毫秒
1
1.
2.
汉语听觉视觉双模态数据库CAVSR1.0 总被引:8,自引:0,他引:8
听觉视觉双模态语音识别在国际上已经逐渐成为当前语音识别的热点之一,汉语的双模态识别研究也已开始启动。然而,由于视觉信息获取及处理难度极大,目前的双模态语音数据库的建设尚显薄弱,汉语方面更是空白。鉴于此,我们在进行听觉视觉双模态语音识别关键技术研究的同时,在分析国外同类数据库的结构的基础上,结合汉语语音的特点,建立了汉语语音的第一个双模态数据库CAVSR1.0。它具有如下特点:采用的语料涵盖所有声韵母,其规模(总数据量、音节量)超出目前国际上同类数据库;语料分布符合汉语声韵母的实际分布概率,因此其反映的规律具有代表性;捆绑了自动音节分割程序及脸部主要特征标定程序,使数据库具有很强的可扩展性。 相似文献
3.
4.
5.
数字式声呐中的一种简化的ZoomFFT算法 总被引:1,自引:0,他引:1
在水声信号处理中,DEMON和LOFAR已被证明为有效的方法,特别是对微弱信号的检测和目标的识别和分类。有的时候,我们还需要知道接收信号频谱的细微结构.一般说来,只有长的时间数据才有可能得到高的频率分辨力,但是由于实际系统软、硬件方面的限制,这样作并不总是可能的.如果我们只是对某些频率附近的谱结构感兴趣,那么ZoomFFT就是一种解决高分辨率谱分析的折中方法.已有的讨论ZoomFFT的文献大体可以分为两大类,即复包络解调ZoomFFT(Complexmodulation)[4]和级连FFT(cascadeFFT)[5,6].前者需要对输入信号进行复解调、低通滤波、降采样等一系列繁复的操作.而后者通常利用前后两次FFT,经过相位和幅度修正得到所需频段的细化谱估计,因而易于实现,可作为一种有效的窄带处理器。本文在给出级连FFT法ZoomFFT理论推导的基础上,试图探讨其与复包络解调法之间的内在对应关系,并分析了窗函数、采样率、重叠率等参数的选取对估计结果的影响,最后给出一种简化的ZoomFFT算法,它可以大大缩短实时数据的运算次数.并给出了系统模拟的结果。 相似文献
6.
7.
数字式声呐中一种新的背景均衡算法 总被引:1,自引:0,他引:1
在频谱分析领域,背景均衡技术已被广泛地研究过.已经证明,这种方法对改善线谱检测是有效的.在数字多波束声呐系统中,方位历程显示是信号处理模块和显控模块之间最重要的界面。已经证明,声呐处理系统的增益最容易在不同的信号处理模块接口处丢失.背景均衡技术可以改善方位历程显示的总体性能,将多波束数据的后置处理结果在送至显示器之前首先进行滤波.本文提出的中值滤波和排序截断平均(OrderTruncateAverase,OTA)相结合的方法利用可变长的窗口匹配不同主瓣宽度的波束图是一种对不均匀、非平稳背景的有效均衡技术.系统模拟结果表明,此方法对于多波束非均匀背景的均衡是非常有效的。 相似文献
1