语音语料库标注规范
1. 语音格式:
语音数据采用16KHz采样,16比特率,PCM方式保存。
2. 目录结构:
目录female和male分别包含女声和男声的全部数据。
目录female和male下的一级子目录分别存放每一个录音人的语音和录音文本数据,不同的目录名区分不同的录音人。男声录音人目录以M开头,女声录音人目录以F开头。
人名目录下包含该录音人所录所有语音文本的文件“SYL.TSH”和数据目录SYL。录音人的每一个语音数据文件(句子)的对应的录音文本保存在数据目录SYL中。
录音文本的格式为一行汉字一行拼音的格式,示例:
以德语为母语的欧共体公民的比例已大大增加
yi3 de2 yu3 wei2 mu3 yu3 de5 ou1 gong4 ti3 gong1 min2 de5 bi3 li4 yi3 da4 da4
zeng1 jia1
3. 语料设计和发音人规范
脚本设计共400份,每份脚本含250句话。语料内容为新闻语料,被挑选句子的长度在5到20字附近。实际使用脚本数为169份,其中前100份脚本重复1~5次(平均3次左右),后69份脚本大致只使用一次。
录音人数共407人(其中205 男性,202女性),约10万句(400人×250句/人),数据大小8.9G, 约80小时。
口音分布为南方8省市:安徽、江西、福建、湖北、湖南、江苏、上海和浙江。
分布详细列表如下:
籍贯 |
男声 |
女声 |
总计 |
安徽 |
19 |
16 |
35 |
江西 |
23 |
21 |
44 |
福建 |
19 |
22 |
41 |
湖北 |
23 |
20 |
43 |
湖南 |
23 |
23 |
46 |
江苏 |
10 |
26 |
36 |
上海 |
3 |
5 |
8 |
浙江 |
85 |
79 |
164 |
总计 |
205 |
202 |
407 |