语音语料库标注规范

CASIA汉语数字串语音库标注规范

1． 数据内容：

连续语音数字串语料，应用于数字识别及其在各种实际应用，包括电话语音拨号，家电语音遥控，身份证号码自动输入，数据校对等

2． 统计数据：

数据大小180M，约1.5小时语音。

55个男生数据每人有80个数字串，串长从1到7不等，共4400句话。每个数字出现的次数及其出现在串首、串中和串尾的比例几乎一致。任何两个数字相连出现的次数也一样。

3． 录音方式：

采样率16KHZ，量化级别 16位线性，存储格式PCM方式。

录音环境：所有数据的录音环境为实验室，信噪比低于30db

4． 目录结构：

语料库male目录下有55个以M开头的文件夹，分别对应55名男声说话人。M后面跟的字符串为说话人的姓名缩写。

人名目录下包含该录音人所录所有语音文本的文件“DGT.TSH”和数据目录DGT。录音人的每一个语音数据文件（句子）保存在数据目录DGT中。

数据目录下文件命名规则：

语音文件DGT#.wav（#从1到80）

录音脚本文件DGT.TSH中标记规范如下：

ON001              ――――‘ON’＋句子序号‘001’
39Y227             ――――数字串文本
ON002              ――――‘ON’＋句子序号‘002’
570900             ――――数字串文本
┋.                          ┋

注：其中数字串文本中Y表示数字1的读音为‘yao’。

5． 语料设计规范

语料的脚本选择为80个数字串，串长从1到7不等，每个数字出现的次数及其出现在串首、串中和串尾的比例几乎一致。任何两个数字相连出现的次数也一样，包含丰富的协同发音现象。