《CASIA北方口音语音库》建设技术报告

2003年7月

1 背景

1996年863语音识别数据库以朗读语体为主，考虑了语音的音段平衡。随着语音识别技术的发展，制作口音、口语化及复杂背景条件下的语音库变得重要起来。在这样的实际要求下，从今年初开始准备收集北方和南方的普通话语音语料库，同时力求突出口语化语速较快的特点，并加大语料覆盖范围。本文将介绍整个CASIA北方口音语音库的语料设计和制作过程。

2 建设目标

汉语语音识别用语料库，要反映口语化、口音对朗读式语音可能产生的影响。

在汉语朗读语料的设计上，尽量覆盖所有的音节间的音段音联关系，而没有将三音子进行语音学归并，这样做主要是考虑到在连续语流中，受到韵律因素的影响，音节音段音联表现的复杂性。同时，由于句子长度的增加，长句子就是一个小语篇，丰富了语句的韵律结构信息。有很多口语句，如问句增加很多。

3 基本原则

语音库的制作和分发应该是一个系统工程，每一步都应该遵从特定的规范。我们应该在语料库的制作中尽量使用一些国际上通用的规范，以便CASIA北方口音语音库在国内外分发和共享。

4 汉语语音识别用语料库制作介绍

本节按照上述规范，简单介绍汉语语音识别用语料库。

4.1 发音人规范

CASIA北方口音语音库包括300人数据，口音分布为北方9省市，包括北京，山西，河北，辽宁，陕西，内蒙古，山东，吉林，黑龙江。

4.2 录音设备

CASIA北方口音语音库采用桌面录音环境，采用普通拾音设备：797厂生产的CR722电容传声器（20-20000Hz）。在纯净录音环境采集没有严格控制，大约30dB。

4.3 语音文件存储格式

CASIA北方口音语音库以16KHz采样16bit精度，Wave格式存储。

4.4 脚本文件存储格式

所有脚本文件的格式为一行汉字一行拼音的格式，示例：

以德语为母语的欧共体公民的比例已大大增加
yi3 de2 yu3 wei2 mu3 yu3 de5 ou1 gong4 ti3 gong1 min2 de5 bi3 li4 yi3 da4 da4 zeng1 jia1