CASIA北方口音语音库》建设技术报告

20037

 

1   背景

1996863语音识别数据库以朗读语体为主,考虑了语音的音段平衡。随着语音识别技术的发展,制作口音、口语化及复杂背景条件下的语音库变得重要起来。在这样的实际要求下,从今年初开始准备收集北方和南方的普通话语音语料库,同时力求突出口语化语速较快的特点,并加大语料覆盖范围。本文将介绍整个CASIA北方口音语音库的语料设计和制作过程。

 

2   建设目标

汉语语音识别用语料库,要反映口语化、口音对朗读式语音可能产生的影响。

在汉语朗读语料的设计上,尽量覆盖所有的音节间的音段音联关系,而没有将三音子进行语音学归并,这样做主要是考虑到在连续语流中,受到韵律因素的影响,音节音段音联表现的复杂性。同时,由于句子长度的增加,长句子就是一个小语篇,丰富了语句的韵律结构信息。有很多口语句,如问句增加很多。

 

3   基本原则

语音库的制作和分发应该是一个系统工程,每一步都应该遵从特定的规范。我们应该在语料库的制作中尽量使用一些国际上通用的规范,以便CASIA北方口音语音库在国内外分发和共享。

 

4   汉语语音识别用语料库制作介绍

本节按照上述规范,简单介绍汉语语音识别用语料库。

 

4.1       发音人规范

CASIA北方口音语音库包括300人数据,口音分布为北方9省市,包括北京,山西,河北,辽宁,陕西,内蒙古,山东,吉林,黑龙江。

 

4.2       录音设备

CASIA北方口音语音库采用桌面录音环境,采用普通拾音设备:797厂生产的CR722电容传声器(20-20000Hz)。在纯净录音环境采集没有严格控制,大约30dB

 

4.3       语音文件存储格式

CASIA北方口音语音库16KHz采样16bit精度,Wave格式存储。

 

4.4       脚本文件存储格式

所有脚本文件的格式为一行汉字一行拼音的格式,示例:

以德语为母语的欧共体公民的比例已大大增加
yi3 de2 yu3 wei2 mu3 yu3 de5 ou1 gong4 ti3 gong1 min2 de5 bi3 li4 yi3 da4 da4 zeng1 jia1