首页 | 本学科首页   官方微博 | 高级检索  
     检索      

汉语语音视位的研究
引用本文:王志明,蔡莲红.汉语语音视位的研究[J].应用声学,2002,21(3):29-34.
作者姓名:王志明  蔡莲红
作者单位:清华大学计算机系,北京,100084
基金项目:国家教育部高等学校博士学科点专项科研基金资助项目(20010003049)
摘    要:MPEG-4首次作为国际标准正式定义了视位(Viseme)的概念,它是指与某一音位相对应的嘴、舌头、下腭等可视发音器官所处的状态。本文通过对汉语发音时各可见部分器官动作和发音规则的研究,将汉语发音分为28个基本静态视位。利用语音信息从AVI文件中自动抽取出这些基本视位图象,从MPEG-4所规定的68个面部动画参数(FAP)中提取出28个来描述这些口形,并实现了部分FAP参数的自动测量,最后,我们给出一个视位研究应用的实例。

关 键 词:汉语  语音视位  文本-语音转换系统  文本-可视语音转换系统  静态视位  MPEG-4  语音识别

Study of Chinese viseme
WANG Zhiming and CAI Lianhong.Study of Chinese viseme[J].Applied Acoustics,2002,21(3):29-34.
Authors:WANG Zhiming and CAI Lianhong
Institution:WANG Zhiming CAI LianhongDep. of Computer Sci. and Tech. of Tsinghua University,Beijing100084
Abstract:MPEG-4 gives the definition of viseme as the physical (visual) configurationof the mouth, tongue and jaw that is visually correlated with the speech sound cor-responding to a phoneme. Based on the study of the visual articulators movement inuttering Chinese speech and of the pronunciation rules, we define 28 basic static visemesof Chinese. We describe these visemes in term of 28 of the total of 68 MPEG-4 FAPs,extract these visemes automatically from AVI files based on speech information, and mea-sured partial FAP values by automatically tracking the mouth contour and some markedpoints. Finally, we give an example of usage of these viseme.
Keywords:Viseme  Facial animation parameter  Text-to-speech  Text-to-visual speech
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《应用声学》浏览原始摘要信息
点击此处可从《应用声学》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号