清华大学计算机科学与技术系
人机交互与媒体集成研究所
2003.12
TH-CoSS
(TsingHua - Corpus of Speech Synthesis)是主要为语音合成系统的建立、测试和评估,以及语音学研究而设计的综合性大型汉语语料库。不同的数据库将以不同的序列号来标识,以适应不同领域不断发展的需求。版本序列号的命名规则如下:
TH-CoSS的序列号是大写字母和数字的组合,共六位。第一和第二位是发布年份的后两位数字,如“03”表示该序列为2003年发布的;第三位用大写字母标识该语料库的关键类别,如发音人的性别(F/M)、第四位为语料收集方式(R/B/D)(R表示朗读,B表示广播,D表示对话)等;第五位为该类别发音人的序号(0-9),如“03FR0X”中第五位表示第零号女发音人;第六位表示该采用发音人的语料库序号(0-9),如“03FR00”表示2003年发布的第零号女发音人录制的第零号朗读语料库。
本次(2003年12月)发布的两个语料库的版本序列号是TH-CoSS 03MR00和TH-CoSS 03FR00。03MR00和03FR00都是为语音合成系统的建立、测试和评估,以及语音学研究而设计的综合性大型汉语语料库,前者为男声朗读语料库后者为女声朗读语料库。
语音和相关数据在CDROM上是按图一的层级结构组织的。
其中,doc目录下有Technical Report、此文件和标注符号定义文件20031107-ch.dtd。
doc/prompts/*/目录下为各部分文本
data目录下,每一个最底层目录内均为该部分的语音和标注文件
/-main
|-test /-F_r tone
|-syllable|-Neutralized
/-03FR00|
\-Retroflexed
|
|
/-Question
|
|-intonation|-Exclamation
/-data|
| | /-main
| | |-test /-F_r
tone
| |
|-syllable|-Neutralized
| \-03MR00|
\-Retroflexed
|
|
/-Question
|
|-intonation|-Exclamation
TH-CoSS|
|
\doc|
/-03FR00
\-prompts|
\-03MR00
图一 目录结构
在data部分,有两种类型的数据文件,扩展名分别为wav和lab。
每一个语音文件.wav对应一个标注文件.lab。.lab遵守xml1.0规范的文件格式,其符号在doc目录下的20031107-ch.dtd中定义。
标注数据文件记录句子中每个音节的汉字、拼音、IPA音标和始末位置等信息,同时表明韵律词和韵律短语的层级结构。标注文件采用XML格式进行说明,便于浏览和扩展。其基本标记定义如下:
<?xml version="1.0" encoding="gb2312"?>
<!ELEMENT utterance (sil*,sentence)>
<!--根元素,韵律结构的最大单元-->
<!ATTLIST utterance total_sample CDATA #REQUIRED>
<!--该文件对应语音文件的采样点数-->
<!ELEMENT sil (#PCDATA)>
<!--静音段-->
<!ATTLIST sil end_sample ID #REQUIRED>
<!--该段的末尾采样点序号-->
<!ELEMENT sentence (prosodic_phrase+)>
<!--句子-->
<!ELEMENT prosodic_phrase (prosodic_word+)>
<!--韵律短语-->
<!ELEMENT prosodic_word (syllable+,sil*)>
<!--韵律词-->
<!ELEMENT syllable (#PCDATA)>
<!--音节-->
<!ATTLIST syllable ch_char CDATA #REQUIRED>
<!--汉字-->
<!ATTLIST syllable pinyin CDATA #REQUIRED>
<!--有调拼音-->
<!ATTLIST syllable end_sample ID #REQUIRED>
<!--音节末采样点序号-->
下面以“为临帖他还远游西安碑林龙门石窟泰山摩崖石刻”一句为例,进行说明。
1) 标注的根结构为“utterance”单元,其属性为该utterance单元的采样点数(长度)。Chunk块开始到第一个句子开始其间可能有静音部分,以“<sil end_sample = “ ”>”结构说明静音段的长度。在目前的标注语料中,每个chunk单元包含一个句子。句子结构以<sentence>记号加以标注,根据需要,该记号后还可以进行扩充,以加入对句子属性的更多描述。
2) 一个sentence单元可能被划分为若干个韵律短语(Prosodic Phrase)单元,以< prosodic_phrase>记号加以修饰。
3) 同样,每个韵律短语单元还可以进一步细分为韵律词单元,以<prosodic_word>记号加以修饰。
4) 最基本的单元为音节(syllable),以<syllable>记号修饰,其后跟音节的属性,包括汉字(char),拼音(pinyin),MCIPA音标(MCIPA),音节结束位置(end_sample)。音节边界与韵律词边界之间,以及语音文件的始末部分可能还存在静音部分,同样用与音节同层的静音(sil)单元“<sil end_sample = “ ”>”加以说明。
可以看出,采用基于XML的层级标注方式,能够清晰地表示出语句的韵律层级结构,并且可以根据需要方便地扩展/删除某一标注单元的属性。下面给出一个较为完整的例子。