汉语普通话语音合成语音库

汉语普通话语音合成语音库

（基本库）

（1） 资源简述

此数据库为汉语普通话语音库，共包括11万字，整理为20个文本，分别为语句、数字串、生僻字、字母串、度量单位、轻声、儿话、希腊字母、疑问句、英文单词、模拟预订客房。录制产生的声音文件为44.1k采样频率、16bit量化精度的WINDOWS PCM WAV文件。共两个通道，一个通道为语音波形信号，另一个通道为声门波信号（语音基频信号）。语音库主要用于汉语普通话语音合成的测试和训练。

（2） 标注规范

n 声音文件的后期处理

u 将声音文件整理成与发音文本相匹配的单句声音文件；

u 单句声音文件的头、尾保留一定的静音段；

u 根据字典音校对声音文件。

n 文本文件的后期处理

u 录音完成后，按照要求进行文本校对；

u 按照发音人真实发音修改文本

例：‘我们’读成了‘他们’，文本修改为‘他们’

n 数据标注

u 音节标注：

l 音节在句子中的起始、中止位置（精确到1/1000秒）：‘a’表示一个音节的开始，‘s’为静音段。生成的文本格式为*.sfs1。

l 标记点记录为时间点+空格+标记符号。

例：100028.sfs1

0.00000 s

0.30145 a

0.70490 s

1.08055 a

1.25455 a

1.53015 a

1.72225 a

2.05635 s

u 韵律标注：

l 韵律分成四级，分别用#4，#3，#2，#1表示。

l #4<1>一个完整语意的句子，切除前后可以独立成为一个句子，从听感上调形是完全降下来的。有明显的停顿。

<2>如果是以二声词结尾的短句，这个二声的词被拖长音，且与后面是转折的关系的，有明显的停顿。也给#4。

l #3通常标在一个韵律短语后面，有时会是一个词，从听感上调形是降下来的，但不够完全，不能独立成为一个语意完整的句子。

l #2<1>表示被‘重读’的词或单个字(为了强调后面)，有停顿，调形上有小的变化, 有‘骤停’的感觉。

（对于单音节词如果是被‘拖长音’，给#1；如果是‘骤停’要给#2）

<2>并列关系的词如果被强调重读，给#2；如果是很平滑的，给#1。

l #1只是一种‘节奏’的边界，通常没有停顿。

l 标注后的结果，如图所示。

图、言语合成语音库的原始波形以及标注信息。