中英文混合语音库标注规范(初稿)
中科大讯飞公司研究中心
2003-2-19
本规范是在参考中国社会科学院语言所语音标注规范的基础上,并根据实际应用的需要进行了一定修正,规范分为对每种文件类型的说明;
一、中英文混合语音库文件头标注规范
1、资源概述
语种:中文、英文、中英文混合;
发音风格:播音风格;
2、文件类型
文本文件 ------- *.txt (OriginalTxt);
韵律文件 ------- *.txt;(ProsodyTxt)
声音文件 ------- xxxxxxxx.wav;
音段文件 ------- xxxxxxxx.textgrid;
3、文本文件:
表示录音语料原始txt文本。原始文本为考虑到最大音段和韵律覆盖率设计的中文、英文、中英文混合共近3000句;
4、韵律文件:
表示由有专业经验的标注人员对造文本和语音数据,标注语音中韵律现象的韵律描述文本文件,各语种韵律描述方式如下;
1)
中文语料:拼音、标注符号
² 拼音:使用国标,调值采用0-4标识
0~轻声;1-阴平;2-阳平;3-上声;4~去声
² 标注符号:#、*分别对应主短语、次短语;
较长的停顿称为主短语,即标注为#
最小的节奏群称为次短语,即标注为*
2)
英文语料:音标、标注符号
² 音标:使用DARPA音标字符集;
² 标注符号:#、*、<2.00>、/分别对应主短语、单词边界、次短语,音节边界;
较长的停顿称为主短语,即标注为#
每个单词之间称为单词边界,即标注为*
最小的节奏群称为次短语,即标注为<2.00>
最小的音节停顿称为音节边界,即标注为/
5、声音文件:
表示录音存储数据,以16k16bit,WindowsPcmWav mono存储的wav文件。
以8位数字命名,如00000001表示第一句。
录音文件的背景噪音<50HZ,能量在5000-25000HZ
6、音段文件:
表示以音节(中),音素(英)为单位自动切分的文件
1)
中文语料:拼音、silv、sil
² 拼音:使用国标
音节指声母或韵母,分开进行标注,如"beng"则标注为 "b+e", "eng"两个音节;
² sil:指文件头和文件尾
² silv:指音素间的模糊段的标注,如缠绕音的标注
2)
英文语料:音素、silv、sil
² 音素:使用__音标,共有26个自定义音标,15个国际音标
以最小的英文单位为音素进行标注
² sil:指文件头和文件尾
² silv:指音素间的模糊段的标注,如缠绕音的标注
如: intervals [2]:
―――――――表示第二个音素
xmin = 0.192000 ―――表示第二个音素起始值
xmax = 0.342000 ―――表示第二个音素结束值
text = "E0ae"――――表示该音素的名称,为自定义音标