标注规范
1. 1.
文本内容:
文本内容的主体是590句疑问句,共由五部分组成,如下表所示:
标号 |
内容描述 |
实例 |
1-150 |
以“吗”为结尾的是非问句 |
你具备侦探才能吗? |
150-300 |
以“呢”为结尾的特指问句 |
你要弥补的是什么呢? |
300-450 |
包含其他疑问语气词的疑问句 |
您什么时候见过六个指头的天使? |
450-550 |
无标疑问句 |
你妈妈知道你抽烟? |
550-590 |
选择问句 |
来的是一个女子还是一个男人? |
2. 2.
语音内容:
共选取录音人男生、女生各两人,每人阅读上述的590句疑问句,共2360句。
另外再从其中选出一男一女两个录音人,强制其去掉疑问句中的疑问词采用陈述语气分别来读以上590句疑问句,共1180句。比如“你具备侦探才能吗?”在此读为“你具备侦探才能吗”,通过这样的设计,我们可以分析陈述句与疑问句在语调表现上的差异。
所有语料共3540句,以16000采样率,16bit,pcm格式存储
3. 3.
目录结构及标注说明:
主目录下,文件“corpusRet.txt”中存储疑问句文本,格式为一行汉字一行拼音的格式,如下所示:
你具备侦探才能吗?
ni3 ju4 bei4 zhen1 tan4 cai2 neng2 ma5
其中拼音使用国标,调值采用0-4标识:0-轻声;1-阴平;2-阳平;3-上声;4-去声
除语音文件外,另外四个文件夹分别存储四个录音人的语音数据,文件夹命名分别为:w1,w2,m1,m2。每个文件夹中均存储着590句疑问句语料及其标注文件,其命名依次为001.wav, 001.tag, 002.wav, 002.tag, … …
590.wav, 590.tag.tag文件是标注文件,其中包含音节边界信息、基频信息等。tag文件是二进制文件,其存储的格式可由我方提供。
另外两个文件夹w1_c,m1_c存储陈述语气的疑问句,其内容命名方式也如上所示。
如图所示:
目录结构