语音语料库标注规范
1. 语音格式:
语音数据采用16KHz采样,16比特率,PCM方式保存。
2. 目录结构:
目录female和male分别包含女声和男声的全部数据。
目录female和male下的一级子目录分别存放每一个录音人的语音和录音文本数据,不同的目录名区分不同的录音人。男声录音人目录以M开头,女声录音人目录以F开头。
目录名的格式为:性别(M/F)+人名缩写+文本标号。例如:目录名为MYANGL31,表示录音人为男性,录音人姓名缩写为YANGL,录音文本标号为31。
人名目录下包含该录音人所录所有语音文本的文件“STN.TSH”和数据目录STN。录音人的每一个语音数据文件(句子)的对应的录音文本保存在数据目录STN中。
录音文本的格式为一行汉字一行拼音的格式,示例:
定期存款比重提高到百分之七十八点八
ding4 qi1 cun2 kuan3 bi3 zhong4 ti2 gao1 dao4 bai3 fen1 zhi1 qi1 shi2 ba1 dian3
ba1
3. 语料设计和发音人规范
脚本设计共75份,每份脚本含250句话。语料内容为新闻语料,被挑选句子的长度在5到20字附近。每份脚本大致重复4次。
录音人数共300人(其中150 男性,150女性),约7.5万句(300人×250句/人),数据大小
口音分布为北方9省市:
北京:142, 山西:23,河北:22,辽宁:43,陕西:18,内蒙古:6,山东:18,吉林: 12, 黑龙江: 16。
分布详细列表如下:
籍贯 |
人数统计 |
北京 |
142 |
山西 |
23 |
河北 |
22 |
辽宁 |
43 |
陕西 |
18 |
内蒙古 |
6 |
山东 |
18 |
总计 |
300 |
吉林 |
12 |
黑龙江 |
16 |
总计 |
300 |