CASIA汉语数字串语音库标注规范

1. 数据内容:

 

连续语音数字串语料,应用于数字识别及其在各种实际应用,包括电话语音拨号,家电语音遥控,身份证号码自动输入,数据校对等

 

2. 统计数据:

 

数据大小180M,约1.5小时语音。

55个男生数据每人有80个数字串,串长从1到7不等,共4400句话。每个数字出现的次数及其出现在串首、串中和串尾的比例几乎一致。任何两个数字相连出现的次数也一样。

 

3. 录音方式:

 

采样率16KHZ,量化级别 16位线性,存储格式PCM方式。

录音环境:所有数据的录音环境为实验室,信噪比低于30db

 

4. 目录结构:

 

语料库male目录下有55个以M开头的文件夹,分别对应55名男声说话人。M后面跟的字符串为说话人的姓名缩写。

人名目录下包含该录音人所录所有语音文本的文件“DGT.TSH”和数据目录DGT。录音人的每一个语音数据文件(句子)保存在数据目录DGT中。

数据目录下文件命名规则:

语音文件DGT#.wav#从1到80)

录音脚本文件DGT.TSH中标记规范如下:

ON001              ―――‘ON’+句子序号‘001’
39Y227             ―――数字串文本
ON002              ―――‘ON’+句子序号‘
002’
570900             ―――数字串文本
┋.                         

注:其中数字串文本中Y表示数字1的读音为‘yao’。

 

5. 语料设计规范

 

语料的脚本选择为80个数字串,串长从1到7不等,每个数字出现的次数及其出现在串首、串中和串尾的比例几乎一致。任何两个数字相连出现的次数也一样,包含丰富的协同发音现象。