语音语料库标注规范

1． 语音格式：

语音数据采用16KHz采样，16比特率，PCM方式保存。

2． 目录结构：

目录female和male分别包含女声和男声的全部数据。

目录female和male下的一级子目录分别存放每一个录音人的语音和录音文本数据，不同的目录名区分不同的录音人。男声录音人目录以M开头，女声录音人目录以F开头。

目录名的格式为：性别(M/F)+人名缩写+文本标号。例如：目录名为MYANGL31，表示录音人为男性，录音人姓名缩写为YANGL，录音文本标号为31。

人名目录下包含该录音人所录所有语音文本的文件“STN.TSH”和数据目录STN。录音人的每一个语音数据文件（句子）的对应的录音文本保存在数据目录STN中。

录音文本的格式为一行汉字一行拼音的格式，示例：

定期存款比重提高到百分之七十八点八
ding4 qi1 cun2 kuan3 bi3 zhong4 ti2 gao1 dao4 bai3 fen1 zhi1 qi1 shi2 ba1 dian3 ba1

3． 语料设计和发音人规范

脚本设计共75份，每份脚本含250句话。语料内容为新闻语料，被挑选句子的长度在5到20字附近。每份脚本大致重复4次。

录音人数共300人（其中150 男性，150女性），约7.5万句（300人×250句/人），数据大小6.3G，约55小时。

口音分布为北方9省市：

北京：142，山西：23，河北：22，辽宁：43，陕西：18，内蒙古：6，山东：18，吉林： 12，黑龙江： 16。

分布详细列表如下：