TH-CoSS数据格式与标注规范(初稿)

清华大学计算机科学与技术系

人机交互与媒体集成研究所

2003.12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1. TH-CoSS的版本

    TH-CoSS (TsingHua - Corpus of Speech Synthesis)是主要为语音合成系统的建立、测试和评估,以及语音学研究而设计的综合性大型汉语语料库。不同的数据库将以不同的序列号来标识,以适应不同领域不断发展的需求。版本序列号的命名规则如下:

    TH-CoSS的序列号是大写字母和数字的组合,共六位。第一和第二位是发布年份的后两位数字,如“03”表示该序列为2003年发布的;第三位用大写字母标识该语料库的关键类别,如发音人的性别(F/M)、第四位为语料收集方式(R/B/D)(R表示朗读,B表示广播,D表示对话)等;第五位为该类别发音人的序号(0-9),如“03FR0X”中第五位表示第零号女发音人;第六位表示该采用发音人的语料库序号(0-9),如“03FR00”表示2003年发布的第零号女发音人录制的第零号朗读语料库。

本次(2003年12月)发布的两个语料库的版本序列号是TH-CoSS 03MR00和TH-CoSS 03FR00。03MR00和03FR00都是为语音合成系统的建立、测试和评估,以及语音学研究而设计的综合性大型汉语语料库,前者为男声朗读语料库后者为女声朗读语料库。

2.TH-CoSS的目录结构

    语音和相关数据在CDROM上是按图一的层级结构组织的。

    其中,doc目录下有Technical Report、此文件和标注符号定义文件20031107-ch.dtd。

    doc/prompts/*/目录下为各部分文本

    data目录下,每一个最底层目录内均为该部分的语音和标注文件

 

                     /-main

                     |-test    /-F_r tone

                     |-syllable|-Neutralized

             /-03FR00|         \-Retroflexed

             |       |           /-Question

             |       |-intonation|-Exclamation        

       /-data|

       |     |       /-main

       |     |       |-test    /-F_r tone

       |     |       |-syllable|-Neutralized

       |     \-03MR00|         \-Retroflexed

       |             |           /-Question

       |             |-intonation|-Exclamation        

TH-CoSS|

       |   

       \doc|        /-03FR00

           \-prompts|

                    \-03MR00

 

                        图一    目录结构

 

3. Data部分数据文件类型与标注规范

    在data部分,有两种类型的数据文件,扩展名分别为wav和lab。

    每一个语音文件.wav对应一个标注文件.lab。.lab遵守xml1.0规范的文件格式,其符号在doc目录下的20031107-ch.dtd中定义。

标注数据文件记录句子中每个音节的汉字、拼音、IPA音标和始末位置等信息,同时表明韵律词和韵律短语的层级结构。标注文件采用XML格式进行说明,便于浏览和扩展。其基本标记定义如下:

<?xml version="1.0" encoding="gb2312"?>

<!ELEMENT utterance (sil*,sentence)>

<!--根元素,韵律结构的最大单元-->

<!ATTLIST utterance total_sample CDATA #REQUIRED>

<!--该文件对应语音文件的采样点数-->

  <!ELEMENT sil (#PCDATA)>

  <!--静音段-->

  <!ATTLIST sil end_sample ID #REQUIRED>

  <!--该段的末尾采样点序号-->

  <!ELEMENT sentence (prosodic_phrase+)>

  <!--句子-->

    <!ELEMENT prosodic_phrase (prosodic_word+)>

    <!--韵律短语-->

      <!ELEMENT prosodic_word (syllable+,sil*)>

      <!--韵律词-->

        <!ELEMENT syllable (#PCDATA)>

        <!--音节-->

        <!ATTLIST syllable ch_char CDATA #REQUIRED>

        <!--汉字-->

        <!ATTLIST syllable pinyin CDATA #REQUIRED>

        <!--有调拼音-->

        <!ATTLIST syllable end_sample ID #REQUIRED>

        <!--音节末采样点序号-->

下面以“为临帖他还远游西安碑林龙门石窟泰山摩崖石刻”一句为例,进行说明。

1)        标注的根结构为“utterance”单元,其属性为该utterance单元的采样点数(长度)。Chunk块开始到第一个句子开始其间可能有静音部分,以“<sil end_sample = “ ”>”结构说明静音段的长度。在目前的标注语料中,每个chunk单元包含一个句子。句子结构以<sentence>记号加以标注,根据需要,该记号后还可以进行扩充,以加入对句子属性的更多描述。

2)        一个sentence单元可能被划分为若干个韵律短语(Prosodic Phrase)单元,以< prosodic_phrase>记号加以修饰。

3)        同样,每个韵律短语单元还可以进一步细分为韵律词单元,以<prosodic_word>记号加以修饰。

4)        最基本的单元为音节(syllable),以<syllable>记号修饰,其后跟音节的属性,包括汉字(char),拼音(pinyin),MCIPA音标(MCIPA),音节结束位置(end_sample)。音节边界与韵律词边界之间,以及语音文件的始末部分可能还存在静音部分,同样用与音节同层的静音(sil)单元“<sil end_sample = “ ”>”加以说明。

4. TH-CoSS标注文件示例

可以看出,采用基于XML的层级标注方式,能够清晰地表示出语句的韵律层级结构,并且可以根据需要方便地扩展/删除某一标注单元的属性。下面给出一个较为完整的例子。