CADCC标注规范

 

一、.内容组成

 

CADCC自然口语对话语料库DATAANNO目录中存有该对话单元的语音数据和文本标注。

 

  2.1 语音数据

 

    存储格式:16KHZ采样、16位数据、单声道WAV格式。

 

  2.2 对话文本标注

 

对话文本记录了每位发音人的对话内容,采用TEXT格式存储。每句语音内容的标注有3行信息,如下:

 

5: (134415:9660) A:对

Word Segments: \A:\对\

Pinyin String: A: dui4

 

1行开头的数字指明了该段声音在其所处声音文件的位置(即段号);随后括号中的2串数字分别指明了该段声音在其所处声音文件中的起始点时刻和延续时间长度(单位为采样点);最后的文字信息指明发音人序号和其所说文字内容。

2行Word Segments是分词信息。

3行Pinyin String是拼音信息。

 

本语料库因为基于自然口语对话,所以包含有丰富的音变、副语言信息和其它非语言学现象,在标注时采用了特殊符号,含义如下:

 

 

    现象                              标注符号

 

    1   拖音    lengthening             [LE ]

    2   喘息    breathing               [BR ]

    3   笑声    laughing                [LA ]

    4   哭声    crying                  [CR ]

    5   咳嗽    coughing                [CO ]

    6   间断    disfluency              [DS ]

    7   噪音    noise                   [NS ]

    8   沉默    silence (long)          [SI ]

    9   含混音  murmur/uncertain segment[UC ]

    10  语气词  modal/exclamation       [MO ]

    11  咂嘴音  smack                   [SM ]

    12  其他语言non-Chinese             [NC ]

    13  吸鼻音  sniffle                 [SN ]   

    14  打哈欠  yawn                    [YA ]

    15  重叠发音overlap                 [OV ]

    16  插话    interjection            [IN ]

    17  吞咽    deglutition             [DE ]

    18  清嗓子  hawk                    [HA ]

    19  打喷嚏  sneezes                 [SE ]

    20  电话忙音beep                    [BP ]

    21  颤音    trill                   [TR ]

    22  口误    error                   [ER ]

    23  填充停顿filled pause            [FP ]