中英文混合语音库标注规范(初稿)

中科大讯飞公司研究中心

2003-2-19

本规范是在参考中国社会科学院语言所语音标注规范的基础上,并根据实际应用的需要进行了一定修正,规范分为对每种文件类型的说明;

一、中英文混合语音库文件头标注规范

1、资源概述

语种:中文、英文、中英文混合;

发音风格:播音风格;

 

2、文件类型

文本文件 ------- *.txt  (OriginalTxt);

韵律文件 ------- *.txt;(ProsodyTxt)

声音文件 ------- xxxxxxxx.wav;

音段文件 ------- xxxxxxxx.textgrid;

 

3、文本文件:

  表示录音语料原始txt文本。原始文本为考虑到最大音段和韵律覆盖率设计的中文、英文、中英文混合共近3000句;

 

4、韵律文件:

  表示由有专业经验的标注人员对造文本和语音数据,标注语音中韵律现象的韵律描述文本文件,各语种韵律描述方式如下;

1)    中文语料:拼音、标注符号

²       拼音:使用国标,调值采用0-4标识

0~轻声;1-阴平;2-阳平;3-上声;4~去声

²       标注符号:#、*分别对应主短语、次短语;

较长的停顿称为主短语,即标注为#

最小的节奏群称为次短语,即标注为*

2)    英文语料:音标、标注符号

²       音标:使用DARPA音标字符集;

²       标注符号:#、*、<2.00>、/分别对应主短语、单词边界、次短语,音节边界;

较长的停顿称为主短语,即标注为#

每个单词之间称为单词边界,即标注为*

最小的节奏群称为次短语,即标注为<2.00>

最小的音节停顿称为音节边界,即标注为/

5、声音文件:

表示录音存储数据,以16k16bit,WindowsPcmWav mono存储的wav文件。

8位数字命名,如00000001表示第一句。

录音文件的背景噪音<50HZ,能量在5000-25000HZ

6、音段文件:

  表示以音节(中),音素(英)为单位自动切分的文件

1)      中文语料:拼音、silv、sil

²       拼音:使用国标

音节指声母或韵母,分开进行标注,如"beng"则标注为 "b+e", "eng"两个音节;

²       sil:指文件头和文件尾

²       silv:指音素间的模糊段的标注,如缠绕音的标注

2)      英文语料:音素、silv、sil

²       音素:使用__音标,共有26个自定义音标,15个国际音标

以最小的英文单位为音素进行标注

²       sil:指文件头和文件尾

²       silv:指音素间的模糊段的标注,如缠绕音的标注

   如: intervals [2]: ―――――――表示第二个音素

            xmin = 0.192000 ―――表示第二个音素起始值

            xmax = 0.342000 ―――表示第二个音素结束值

            text = "E0ae"――――表示该音素的名称,为自定义音标