汉语普通话语音合成语音库

(附加库)

 

(1) 资源简述

此数据库为汉语普通话语音库,共包括7.6万字,整理为8个文本,均为中文单句。录制产生的声音文件为44.1k采样频率、16bit量化精度的WINDOWS PCM WAV文件。共两个通道,一个通道为语音波形信号,另一个通道为声门波信号(语音基频信号)。语音库主要用于汉语普通话语音合成的测试和训练。

(2) 标注规范

a)        声音文件的后期处理

u       将声音文件整理成与发音文本相匹配的单句声音文件;

u       单句声音文件的头、尾保留一定的静音段;

u       根据字典音校对声音文件。

b)        文本文件的后期处理

u       录音完成后,按照要求进行文本校对;

u       按照发音人真实发音修改文本

例:‘我们’读成了‘他们’,文本修改为‘他们

 

c)        数据标注

u       音节标注:

l         音节在句子中的起始、中止位置(精确到1/1000秒):‘a’表示一个音节的开始,‘s’为静音段。生成的文本格式为*.sfs1。

l         标记点记录为时间点+空格+标记符号。

例:100028.sfs1

0.00000 s

0.30145 a

0.70490 s

1.08055 a

     1.25455 a

     1.53015 a

     1.72225 a

      2.05635 s

u       韵律标注:

l         韵律分成四级,分别用#4,#3,#2,#1表示。

l         #4<1>一个完整语意的句子,切除前后可以独立成为一个句子,从听感上调形是 完全降下来的。有明显的停顿。

<2>如果是以二声词结尾的短句,这个二声的词被拖长音,且与后面是转折的关系的,有明显的停顿。也给#4。

l         #3通常标在一个韵律短语后面,有时会是一个词,从听感上调形是降下来的,但不够完全,不能独立成为一个语意完整的句子。

l         #2<1>表示被‘重读’的词或单个字(为了强调后面),有停顿,调形上有小的变化, 有‘骤停’的感觉。

(对于单音节词如果是被‘拖长音’,给#1;如果是‘骤停’要给#2)

<2>并列关系的词如果被强调重读,给#2;如果是很平滑的,给#1。

l         #1只是一种‘节奏’的边界,通常没有停顿。

l         标注后的结果,如图所示。

图、言语合成语音库的原始波形以及标注信息。