《CASIA98-99语音测试库》建设技术报告
1998年7月
1
背景
1996年863语音识别数据库以朗读语体为主,通过这批数据训练出来的中文听写机需要一个客观地评价。本文将介绍整个语音库的语料设计和制作过程。
2
建设目标
汉语连续朗读式语音测试用语料库,要在覆盖尽可能多的音节间的音段音联关系基础上,反映口语化、口音等对朗读式语音可能产生的影响。
3
基本原则
语音库的制作和分发应该是一个系统工程,每一步都应该遵从特定的规范。我们应该在语料库的制作中尽量使用一些国际上通用的规范,以便CASIA98-99语音测试库在国内外分发和共享。
4
汉语语音识别用语料库制作介绍
本节按照上述规范,简单介绍CASIA98-99语音测试库。
4.1
发音人规范
测试库由男声33人,女声10人组成,每人发音60句,每句5-15字组成。发音人以20-30岁为主,说话人普通话口音未加控制,涉及中国多个主要口音区域。
4.2
脚本设计规范
不同发音人可能使用同一个脚本,为分析口音因素导致的识别率差异提供基础。脚本以新闻语料为主,为测试语言模型性能,内容涉及多种领域。
4.3
录音设备
办公室环境录制,采用普通拾音设备:797厂生产的CR722电容传声器(20-20000Hz)。在纯净录音环境采集没有严格控制,大约20dB。
4.4
语音文件存储格式
CASIA98-99语音测试库以16KHz采样16bit精度,Wave格式存储。
4.5
脚本文件存储格式
所有脚本文件的格式以汉字形式给出。