CASIA98-99语音测试库》建设技术报告

19987

 

1           背景

1996863语音识别数据库以朗读语体为主,通过这批数据训练出来的中文听写机需要一个客观地评价。本文将介绍整个语音库的语料设计和制作过程。

 

2           建设目标

汉语连续朗读式语音测试用语料库,要在覆盖尽可能多的音节间的音段音联关系基础上,反映口语化、口音等对朗读式语音可能产生的影响。

 

3           基本原则

语音库的制作和分发应该是一个系统工程,每一步都应该遵从特定的规范。我们应该在语料库的制作中尽量使用一些国际上通用的规范,以便CASIA98-99语音测试库在国内外分发和共享。

 

4           汉语语音识别用语料库制作介绍

本节按照上述规范,简单介绍CASIA98-99语音测试库。

 

4.1     发音人规范

测试库由男声33人,女声10人组成,每人发音60句,每句515字组成。发音人以2030岁为主,说话人普通话口音未加控制,涉及中国多个主要口音区域。

 

4.2     脚本设计规范

不同发音人可能使用同一个脚本,为分析口音因素导致的识别率差异提供基础。脚本以新闻语料为主,为测试语言模型性能,内容涉及多种领域

 

4.3     录音设备

办公室环境录制,采用普通拾音设备:797厂生产的CR722电容传声器(20-20000Hz)。在纯净录音环境采集没有严格控制,大约20dB

 

4.4     语音文件存储格式

CASIA98-99语音测试库16KHz采样16bit精度,Wave格式存储。

 

4.5     脚本文件存储格式

所有脚本文件的格式以汉字形式给出。