《CASIA汉语数字串语音库》建设技术报告
1995年9月
1
背景
随着语音识别技术地不断走向实用,作为一个特例,连续数字串识别在很多领域体现出了它强大的适用性,如电话语音拨号,家电语音遥控,身份证号码自动输入,数据校对等。为建立连续数字识别系统,数字串语音库是不可或缺的。本文将介绍整个语音库的语料设计和制作过程。
2
建设目标
数字串语音库,要反映口语话连读因素连续数字语音可能产生的影响。因此在语料的设计上,尽量覆盖所有的数字之间的音联关系。同时,对于不同长度的数字串,人名在断句时所采用的策略也不尽相同,因此还有必要考虑串长的影响。
3
基本原则
语音库的制作和分发应该是一个系统工程,每一步都应该遵从特定的规范。我们应该在语料库的制作中尽量使用一些国际上通用的规范,以便CASIA汉语数字串语音库在国内外分发和共享。
4
汉语语音识别用语料库制作介绍
本节按照上述规范,简单介绍汉语数字串语音库。
4.1
发音人规范
55个男声数据,36个女声数据,每人有80个数字串。发音人以20-30岁为主,说话人普通话口音未加控制,涉及中国多个主要口音区域。
4.2
脚本设计规范
所有数字串长从1到7不等,每个数字出现的次数及其出现在串首、串中和串尾的比例几乎一致。任何两个数字相连出现的次数也一样,包含丰富的协同发音现象。
4.3
录音设备
CASIA汉语数字串语音库采用桌面录音环境,采用普通PC话筒,配置Sound
Bluster 16 Pro声卡。在纯净录音环境采集没有严格控制,大约30dB。
4.4
语音文件存储格式
CASIA汉语数字串语音库以16KHz采样16bit精度,Wave格式存储。
4.5
脚本文件存储格式
所有脚本文件的格式为一行汉字一行拼音的格式,示例:
2637239
er4 liu4 san1 qi1 er4 san1 jiu3