ASCCD标注规范

 

 1、 语音学标注

 

    该标注信息采用C-ToBI符号集符号,利用语音学软件praat标注完成,用户可以从以下地址 http://www.fon.hum.uva.nl/praat/ 了解并下载该软件。(该软件作者:Pual Boersma & David Weenink, e-mail: paul.boersma@hum.uva.nl)

 

    10发音人的语音数据标注文件存放于以下子目录中:

    ..\ DATAANNO\lab\f001lab : 女性第1位发音人语音数据标注

    ..\ DATAANNO\lab\f002lab : 女性第2位发音人语音数据标注

    ..\ DATAANNO\lab\f003lab : 女性第3位发音人语音数据标注

    ..\ DATAANNO\lab\f004lab : 女性第4位发音人语音数据标注

    ..\ DATAANNO\lab\f005lab : 女性第5位发音人语音数据标注

 

    ..\ DATAANNO\lab\m001lab : 男性第1位发音人语音数据标注

    ..\ DATAANNO\lab\m002lab : 男性第2位发音人语音数据标注

    ..\ DATAANNO\lab\m003lab : 男性第3位发音人语音数据标注

    ..\ DATAANNO\lab\m004lab : 男性第4位发音人语音数据标注

    ..\ DATAANNO\lab\m005lab : 男性第5位发音人语音数据标注

 

    子目录中存放有该发音人所有语音数据的标注文件,文件名形如: f001005_02.TextGrid,标注文件名和声音文件名一一对应,但是后缀一律为TextGrid

   

    标注文件中标注4层信息,分别是:

    1)声韵母层(DE):

    标记汉语的声母韵母边界,根据实际发音标注,采用普通话拼音符号,声母标注中包含后接韵母信息,例guo2,声母标为:g+u,韵母标为uo

     本层中音节声调未发生变化时不标,当实际发音声调和正则声调不同时,标注实际发音声调,声调标在韵母之后,用1, 2, 3, 4分别表示四个声调,轻声用0表示,例guo2,若实际发音发为guo1,则声母标为:g+u,韵母标为uo1

     本层中除采用标准拼音外,因为涉及到实际发音中可能出现的特殊情况和音变现象,还使用了C-ToBI一些特殊符号,其含义分别为:

     浊音清化(~u):当浊辅音或元音(标准状态发音时声带应振动)在发音时声带未振动,即为发生清化现象,对应符号后加u,例如发生清化现象的ba1中韵母标为aiu.

     清音浊化(~v):当清辅音(标准状态发音时声不振动)在发音时声带发生了振动,即为发生浊化现象,对应符号后加v,例如发生浊化现象的da4中声母标为d+av.

     减音现象:当某处发生减音时,所减部分后注“-”并用括号括起,如正则的men2在实际发音时en减音后,应标为m(en-)

     增音现象:当某处发生增音时,所增部分后注“+”并用括号括起,如正则的a1在实际发音时前边增r音后,应标为(r+a1

     tl:当某一音节发音完毕阶段留有一段余尾(tile)时,该段标为tl

     sil/silv:空白段(silence)标为sil,浊化的空白段标为silv

 

 

    2)拼音层(PY 

    标记汉语的音节边界,标注音节正则读音,用1, 2, 3, 4分别表示四个声调,轻声用0表示,声调标在韵母之后,例zhong1 guo2

 

    3)间断指数层(BI 

    本层实际是标记汉语的韵律结构。间断指数代表感知到的音节之间以及音节和无声段(silence)之间的音联程度,每一个音节之后都必须有一个间断指数标记。话语的韵律结构是层级组织结构,从小到大可以分为:音节、音步、韵律词、韵律短语和语调单位。韵律结构和句法结构不一定一一对应。

    间断指数值的划分:

        0(缺省值,未标出):韵律词内的音节边界。如"中国"""之后的间断是0

        1:间断比0大,常常韵律词之间的间断如此。韵律词一般由1-4个音节,可以是一个两音节标准音步、三音节超音步、蜕化单音步和一个四字格的复合韵律词。它只有一个词重音,有比较固定的调连模式。对一些轻读/轻声音节,如功能词,他们可以和其相连的词组成一个多音节韵律词。

        2:如果短语后感知到的间断较短,1大比3小,它与后面一个短语的连接较紧密,则此短语后间断标记为3。很多情况下,这是次要韵律短语 ( minor phrase)的边界

        3:如果短语后感知到的停顿较长,它与后面一个短语的连接较松散,而且有基频重设(resetting)等现象,则将此短语标为后的间断标记为3。很情况下,这是主要韵律短语(major phrase)的边界。

        4:由若干个基频曲线依次递降的主要短语组成语调组(intonation group)。P: 不正常间断,如说话人犹豫或被别人打断的间断。

 

    4)重音层(ST 

        标记每个韵律单位的重音,共分0123级。汉语的重音也是与韵律结构对应的层级结构。

        0:韵律词内(间断指数层0级)各音节重音为0(默认值,未标出)。

        1:韵律词(间断指数层1级)中最重音节重音标为1

        2:次要韵律短语(间断指数层2级)中最重音节重音标为2

        3:主要韵律短语(间断指数层3级)中最重音节重音标为3

        语调组因为一般较长,不易感知出最重音节,故该层级的重音不标。

        若某一音节在从不同韵律层级看其重音级别不同时,只标出最高级别的重音(如某一音节不仅在所在韵律词中为最重,还在所在次要韵律短语中最重,则其重音级别只标为2)。     

 

  2、 句法标注

     该部分标注信息参考并借鉴了俞士汶先生《现代汉语语法信息词典详解》中的相关符号,对语料库内容进行了分词和词性标注。本部分标注涵盖f001m001两位发音人的语料(其他8位发音人语料的句法标注与之一致,请参考该部分),分别是:

 

     ..\ DATAANNO\syntax_lab\f001syn  : 女性第1位发音人语音数据句法标注

     ..\ DATAANNO\syntax_lab\m002syn  : 男性第1位发音人语音数据句法标注

     symbol.txt: 句法标注采用符号说明,内容亦可参见下表:

---------------------------------------------------

        名称           词类代码              短语

---------------------------------------------------

       形容词         a       AP

       区别词        b       BP

       连词           c           

       副词              d            DP

       叹词              e     

       方位词           f     

       语素              g    

       前接成分       h    

       成语              I     

       简称略语       j     

       后接成分       k    

       习用语           l     

       数词              m           MP

       名词              n            NP

       拟声词           o    

       介词              p            PP

       量词              q            MP

       代词              r     

       处所词           s     

       时间词           t     

       助词              u    

       动词              v            VP

       语气词           y    

       状态词           z     

---------------------------------------------------