CASIA汉语数字串语音库标注规范
1. 数据内容:
连续语音数字串语料,应用于数字识别及其在各种实际应用,包括电话语音拨号,家电语音遥控,身份证号码自动输入,数据校对等
2. 统计数据:
数据大小
55个男生数据每人有80个数字串,串长从1到7不等,共4400句话。每个数字出现的次数及其出现在串首、串中和串尾的比例几乎一致。任何两个数字相连出现的次数也一样。
3. 录音方式:
采样率16KHZ,量化级别
16位线性,存储格式PCM方式。
录音环境:所有数据的录音环境为实验室,信噪比低于30db
4. 目录结构:
语料库male目录下有55个以M开头的文件夹,分别对应55名男声说话人。M后面跟的字符串为说话人的姓名缩写。
人名目录下包含该录音人所录所有语音文本的文件“DGT.TSH”和数据目录DGT。录音人的每一个语音数据文件(句子)保存在数据目录DGT中。
数据目录下文件命名规则:
语音文件DGT#.wav(#从1到80)
录音脚本文件DGT.TSH中标记规范如下:
ON001 ――――‘ON’+句子序号‘
39Y227 ――――数字串文本
ON002 ――――‘ON’+句子序号‘
570900 ――――数字串文本
┋. ┋
注:其中数字串文本中Y表示数字1的读音为‘yao’。
5. 语料设计规范
语料的脚本选择为80个数字串,串长从1到7不等,每个数字出现的次数及其出现在串首、串中和串尾的比例几乎一致。任何两个数字相连出现的次数也一样,包含丰富的协同发音现象。