排序方式: 共有4条查询结果,搜索用时 296 毫秒
1
1.
2.
3.
汉语听觉视觉双模态数据库CAVSR1.0 总被引:8,自引:0,他引:8
听觉视觉双模态语音识别在国际上已经逐渐成为当前语音识别的热点之一,汉语的双模态识别研究也已开始启动。然而,由于视觉信息获取及处理难度极大,目前的双模态语音数据库的建设尚显薄弱,汉语方面更是空白。鉴于此,我们在进行听觉视觉双模态语音识别关键技术研究的同时,在分析国外同类数据库的结构的基础上,结合汉语语音的特点,建立了汉语语音的第一个双模态数据库CAVSR1.0。它具有如下特点:采用的语料涵盖所有声韵母,其规模(总数据量、音节量)超出目前国际上同类数据库;语料分布符合汉语声韵母的实际分布概率,因此其反映的规律具有代表性;捆绑了自动音节分割程序及脸部主要特征标定程序,使数据库具有很强的可扩展性。 相似文献
4.
介绍了听觉视觉双模态语音识别技术的背景、生物物理基础以及研究现状,简单叙述了冠怕学民语音交互信息技术研究中心(SIT)在该领域的最瓣进展,最后对该领域未来的研究方向、潜在的应用领域进行了分析。 相似文献
1