汉语连续语音数据库的语料设计 |
| |
引用本文: | 祖漪清.汉语连续语音数据库的语料设计[J].声学学报,1999(3). |
| |
作者姓名: | 祖漪清 |
| |
作者单位: | 中国社会科学院语言研究所!北京,100732 |
| |
基金项目: | 国家863高科技计划资助!863—306—03—09—1 |
| |
摘 要: | 质量优良的语音识别系统或语音合成系统需要高质量的、在语音学和语言学知识指导下设计的科学合理简洁有效的连续语音数据库的支持.在目前阶段,汉语语音数据库应限制在朗读言语(readspeech)的音段方面。为了描写语流中的音变现象,考虑如下语音单元:(1)不计声调的音节(401个)。(2)音节间的双音子415个。(3)音节间的三音子3035个,这是根据37个基本音子,利用音节间共振峰过渡的研究结果,按规则规纳的结果.(4)所有音节间过渡段的韵母一声母结构,采用和同三音子相同的归并方法,共781个.为了增加不同的韵律结构,并考虑语音识别系统的后处理,语料还包括汉语的17类基本句型.选用1993、1994两年的“人民日报”、“百家报刊精选”及若干电视剧本、词典词库作为语料库的原始语料,从中选出2185个句子和388个短语作为朗读语料,它们覆盖了99.8%个无调音节,100%的双音子,99.6%的三音子,以及17类句型。
|
本文献已被 CNKI 等数据库收录! |
|