语音语料库标注规范

1. 语音格式:

 

语音数据采用16KHz采样,16比特率,PCM方式保存。

 

2. 目录结构:

 

目录femalemale分别包含女声和男声的全部数据。

目录femalemale下的一级子目录分别存放每一个录音人的语音和录音文本数据,不同的目录名区分不同的录音人。男声录音人目录以M开头,女声录音人目录以F开头。

目录名的格式为:性别(M/F)+人名缩写+文本标号。例如:目录名为MYANGL31,表示录音人为男性,录音人姓名缩写为YANGL,录音文本标号为31

人名目录下包含该录音人所录所有语音文本的文件“STN.TSH”和数据目录STN。录音人的每一个语音数据文件(句子)的对应的录音文本保存在数据目录STN中。

录音文本的格式为一行汉字一行拼音的格式,示例:

定期存款比重提高到百分之七十八点八
ding4 qi1 cun2 kuan3 bi3 zhong4 ti2 gao1 dao4 bai3 fen1 zhi1 qi1 shi2 ba1 dian3 ba1

 

3. 语料设计和发音人规范

 

脚本设计共75份,每份脚本含250句话。语料内容为新闻语料,被挑选句子的长度在520字附近。每份脚本大致重复4次。

 

录音人数共300人(其中150 男性,150女性),约7.5万句(300人×250/人),数据大小6.3G 55小时。

 

口音分布为北方9省市:

北京:142 山西:23,河北:22,辽宁:43,陕西:18,内蒙古:6,山东:18,吉林: 12 黑龙江: 16

 

分布详细列表如下:

籍贯

人数统计

北京

142

山西

23

河北

22

辽宁

43

陕西

18

内蒙古

6

山东

18

总计

300

吉林

12

黑龙江

16

总计

300