标注规范
1、 1、 语料内容:
在我们的语料设计中,共有5种情感考虑在内,分别是高兴、悲哀、生气、惊吓、中性。每种情感有500句语料,其中前300句是相同文本的,也即是说对相同的文本赋以不同的情感来阅读,这些语料可以用来对比分析不同情感状态下的声学及韵律表现;另外100句是不同文本的,这些文本从字面意思就可以看出其情感归属,便于录音人更准确地表现出情感。 文本内容如下表所示:
300句相同文本 |
我马上拿来 |
|
100句不同文本 |
高兴 |
今天天气太好啦 |
|
悲哀 |
我好难过 |
|
生气 |
你跑到那里去啦 |
|
惊吓 |
那是什么东西 |
|
中性 |
我今天去海淀啦 |
选取录音人男声、女声各两人,每人按照以上所述五种不同的情感朗读文本2500句,共9600句,以16000采样率,16bit,pcm格式存储。
2.
2. 目录结构及标注说明:
主目录下,文件“相同的文本”中存储相同文本内容,“不同的文本”中存储不同文本内容。格式为以行汉字的格式,如下所示:
201. 就是下雨也去。
除语音文件外,另外四个文件夹分别储存四个录音人的语音数据,文件夹命名分别:w1,w2,m1,m2。每个文件夹均存储这300句相同文本和100句不同文本的语料及其标注文件,其命名依次为001.wav, 001.tag, 002.wav, 002.tag, … …
500.wav, 500.tag.tag文件是标注文件,其中包含音节边界信息、基频信息等。tag文件是二进制文件,其存储的格式可由我方提供。
在录音人的每一个文件夹下分别存储着五种情感语音语料。其内容命名方式也如上所示。
目录如下图所示:目录结构