《汉语语音识别用语料库》建设技术报告

《CASIA98-99语音测试库》建设技术报告

1998年7月

1 背景

1996年863语音识别数据库以朗读语体为主，通过这批数据训练出来的中文听写机需要一个客观地评价。本文将介绍整个语音库的语料设计和制作过程。

2 建设目标

汉语连续朗读式语音测试用语料库，要在覆盖尽可能多的音节间的音段音联关系基础上，反映口语化、口音等对朗读式语音可能产生的影响。

3 基本原则

语音库的制作和分发应该是一个系统工程，每一步都应该遵从特定的规范。我们应该在语料库的制作中尽量使用一些国际上通用的规范，以便CASIA98-99语音测试库在国内外分发和共享。

4 汉语语音识别用语料库制作介绍

本节按照上述规范，简单介绍CASIA98-99语音测试库。

4.1 发音人规范

测试库由男声33人，女声10人组成，每人发音60句，每句5－15字组成。发音人以20－30岁为主，说话人普通话口音未加控制，涉及中国多个主要口音区域。

4.2 脚本设计规范

不同发音人可能使用同一个脚本，为分析口音因素导致的识别率差异提供基础。脚本以新闻语料为主，为测试语言模型性能，内容涉及多种领域。

4.3 录音设备

办公室环境录制，采用普通拾音设备：797厂生产的CR722电容传声器（20-20000Hz）。在纯净录音环境采集没有严格控制，大约20dB。

4.4 语音文件存储格式

CASIA98-99语音测试库以16KHz采样16bit精度，Wave格式存储。

4.5 脚本文件存储格式

所有脚本文件的格式以汉字形式给出。