《汉语语音识别用语料库》建设技术报告

《CASIA汉语数字串语音库》建设技术报告

1995年9月

1 背景

随着语音识别技术地不断走向实用，作为一个特例，连续数字串识别在很多领域体现出了它强大的适用性，如电话语音拨号，家电语音遥控，身份证号码自动输入，数据校对等。为建立连续数字识别系统，数字串语音库是不可或缺的。本文将介绍整个语音库的语料设计和制作过程。

2 建设目标

数字串语音库，要反映口语话连读因素连续数字语音可能产生的影响。因此在语料的设计上，尽量覆盖所有的数字之间的音联关系。同时，对于不同长度的数字串，人名在断句时所采用的策略也不尽相同，因此还有必要考虑串长的影响。

3 基本原则

语音库的制作和分发应该是一个系统工程，每一步都应该遵从特定的规范。我们应该在语料库的制作中尽量使用一些国际上通用的规范，以便CASIA汉语数字串语音库在国内外分发和共享。

4 汉语语音识别用语料库制作介绍

本节按照上述规范，简单介绍汉语数字串语音库。

4.1 发音人规范

55个男声数据，36个女声数据，每人有80个数字串。发音人以20－30岁为主，说话人普通话口音未加控制，涉及中国多个主要口音区域。

4.2 脚本设计规范

所有数字串长从1到7不等，每个数字出现的次数及其出现在串首、串中和串尾的比例几乎一致。任何两个数字相连出现的次数也一样，包含丰富的协同发音现象。

4.3 录音设备

CASIA汉语数字串语音库采用桌面录音环境，采用普通PC话筒，配置Sound Bluster 16 Pro声卡。在纯净录音环境采集没有严格控制，大约30dB。

4.4 语音文件存储格式

CASIA汉语数字串语音库以16KHz采样16bit精度，Wave格式存储。

4.5 脚本文件存储格式

所有脚本文件的格式为一行汉字一行拼音的格式，示例：

2637239
er4 liu4 san1 qi1 er4 san1 jiu3