语音语料库标注规范

1. 语音格式:

 

语音数据采用16KHz采样,16比特率,PCM方式保存。

 

2. 目录结构:

 

目录femalemale分别包含女声和男声的全部数据。

目录femalemale下的一级子目录分别存放每一个录音人的语音和录音文本数据,不同的目录名区分不同的录音人。男声录音人目录以M开头,女声录音人目录以F开头。

人名目录下包含该录音人所录所有语音文本的文件“SYL.TSH”和数据目录SYL。录音人的每一个语音数据文件(句子)的对应的录音文本保存在数据目录SYL中。

录音文本的格式为一行汉字一行拼音的格式,示例:

以德语为母语的欧共体公民的比例已大大增加
yi3 de2 yu3 wei2 mu3 yu3 de5 ou1 gong4 ti3 gong1 min2 de5 bi3 li4 yi3 da4 da4 zeng1 jia1

 

3. 语料设计和发音人规范

 

脚本设计共400份,每份脚本含250句话。语料内容为新闻语料,被挑选句子的长度在520字附近。实际使用脚本数为169份,其中前100份脚本重复15次(平均3次左右),后69份脚本大致只使用一次。

 

录音人数共407人(其中205 男性,202女性),约10万句(400人×250/人),数据大小8.9G 80小时。

 

口音分布为南方8省市:安徽、江西、福建、湖北、湖南、江苏、上海和浙江。

 

分布详细列表如下:

籍贯

男声

女声

总计

安徽

19

16

35

江西

23

21

44

福建

19

22

41

湖北

23

20

43

湖南

23

23

46

江苏

10

26

36

上海

3

5

8

浙江

85

79

164

总计

205

202

407