标注规范

 

1.       1.       文本内容:

文本内容的主体是590句疑问句,共由五部分组成,如下表所示:

 

标号

内容描述

实例

1-150

以“吗”为结尾的是非问句

你具备侦探才能吗?

150-300

以“呢”为结尾的特指问句

你要弥补的是什么呢?

300-450

包含其他疑问语气词的疑问句

您什么时候见过六个指头的天使?

450-550

无标疑问句

你妈妈知道你抽烟?

550-590

选择问句

来的是一个女子还是一个男人?

 

2.      2.      语音内容:

 

共选取录音人男生、女生各两人,每人阅读上述的590句疑问句,共2360句。

另外再从其中选出一男一女两个录音人,强制其去掉疑问句中的疑问词采用陈述语气分别来读以上590句疑问句,共1180句。比如“你具备侦探才能吗?”在此读为“你具备侦探才能吗”,通过这样的设计,我们可以分析陈述句与疑问句在语调表现上的差异。

所有语料共3540句,以16000采样率,16bitpcm格式存储

 

3.      3.      目录结构及标注说明:

 

主目录下,文件“corpusRet.txt”中存储疑问句文本,格式为一行汉字一行拼音的格式,如下所示:

你具备侦探才能吗?

ni3 ju4 bei4 zhen1 tan4 cai2 neng2 ma5

其中拼音使用国标,调值采用0-4标识:0-轻声;1-阴平;2-阳平;3-上声;4-去声

 

除语音文件外,另外四个文件夹分别存储四个录音人的语音数据,文件夹命名分别为:w1,w2,m1,m2。每个文件夹中均存储着590句疑问句语料及其标注文件,其命名依次为001.wav, 001.tag, 002.wav, 002.tag, … … 590.wav, 590.tag.tag文件是标注文件,其中包含音节边界信息、基频信息等。tag文件是二进制文件,其存储的格式可由我方提供。

另外两个文件夹w1_c,m1_c存储陈述语气的疑问句,其内容命名方式也如上所示。

  如图所示:

 

                        

目录结构