汉语普通话语音合成数据库

汉语普通话语音合成数据库

技术文档

天籁数据中心

2006年04月

1 语料库名称

汉语普通话语音合成数据库

2 数据库创建时间

二零零一年

3 产品持有者

天籁数据中心

4 目的

主要用于汉语普通话语音合成的测试和训练。

5 汉语普通话语音合成语料库的语料构成

5.1 数据库包括：

此数据库为汉语普通话语音库，共包括7.6万字，整理为8个文本，均为中文单句。

5.2 文本文件格式：

文本分为发音人文本和校对文本，两种文本格式不同，文字均以GB-2312编码进行书写。

5.2.1 发音人文本格式：

发音人文本格式为*.doc，文本不带拼音行，句首为句子号，句子号由六位阿拉伯数字组成，后以Tab键隔开，后接文本内容，句尾以Enter键结束，文本以两栏的形式在文档中显示。

例：100001 致以诚挚的问候和良好的祝愿 100003 中国的外交工作取得了重要成果

100002 符合和平与发展的时代主题 100004 顺应世界走向多极化的趋势

5.2.2 校对文本格式：

校对文本格式为*.txt，一行文字，一行拼音。文字行句首为句子号，句子号由六位阿拉伯数字组成，后以Tab键隔开，后接文本内容，句尾以Enter键结束；拼音行句首为Tab键，后接文本拼音，拼音之间以空格分开句尾以空格和Enter键结束。

例：

文本类型

例句

语句文本

100006 中国政府顺利恢复对香港行使主权

zhong1 guo2 zheng4 fu3 shun4 li4 hui1 fu4 dui4 xiang1 gang3 xing2 shi2 zhu3 qvan2

6 语料库的制作技术参数

6.1 声音文件格式：

为44.1k采样频率、16bit量化精度的WINDOWS PCM WAV文件。共两个通道，一个通道为原始语音波形信号，另一个通道为声门波信号（语音基频信号）。

6.2 信噪比：

>45dB。

6.3 容量：
两个通道共3,809,999,736 Byte （未经压缩的语音信号）。

6.4 数据后期处理：

6.4.1 声音文件的后期处理：

n 将声音文件整理成与发音文本相匹配的单句声音文件；

n 单句声音文件的头、尾保留一定的静音段；

n 根据字典音校对声音文件。

6.4.2 文本文件的后期处理：

n 录音完成后，按照要求进行文本校对；

n 按照发音人真实发音修改文本。

例：‘我们’读成了‘他们’，文本修改为‘他们’。

6.4.3 数据标注：

n 制订标注规则进行标注。

n 利用计算机辅助，手工完成标注过程。

n 灵活改、编写各种辅助程序，提高加工速度。

n 经过后期校对的语料音节。

n 音节在句子中的起始、中止位置（精确到1/1000秒）：
a ——音节，s——静音。

n 韵律级别：
韵律分成四级，分别用#4，#3，#2，#1表示。

n 标注准则：

n #4<1>一个完整语意的句子，切除前后可以独立成为一个句子，从听感上调形是完全降下来的。有明显的停顿。

<2>如果是以二声词结尾的短句，这个二声的词被拖长音，且与后面是转折的关系的，有明显的停顿。也给#4。

n #3通常标在一个韵律短语后面，有时会是一个词，从听感上调形是降下来的，但不够完全，不能独立成为一个语意完整的句子。

n #2<1>表示被‘重读’的词或单个字(为了强调后面)，有停顿，调形上有小的变化, 有‘骤停’的感觉。

（对于单音节词如果是被‘拖长音’，给#1；如果是‘骤停’要给#2）

<2>并列关系的词如果被强调重读，给#2；如果是很平滑的，给#1。

n #1只是一种‘节奏’的边界，通常没有停顿。

n 标注后的结果，如图2所示。

图1、言语合成语料库的原始波形以及标注信息。

7 产品光盘说明：

7.1 说明：

n 经校正并标注后的发音人文本文件及声音文件；

n 此数据库包括7.6万字，分为8个文本，均为中文单句，所有文本均进行了音节和韵律的标注。

n 单通道共6830个WAV（Windows PCM）文件，双通道为13660个WAV文件。

7.2 产品内容：

n MatadataTable：存放该产品的相关信息。包括：发音文本及发音人信息等内容。

n Additional Lib：存放该产品的所有声音文件。

7.3 产品容量：

该产品总容量为3.52G，合计10.34小时（双通道）。