973 电话语料库标音说明

 

使用软件praat, 标注7层:

l         PY: 拼音层, canonical pinyin and tones. Retroflexed syllable is labeled both on this tier and on the SY tier;  ? for uncertain segments

l         SY 声韵层, initials and finals with some sound changes as shown in table 3.

       ? for uncertain segments; ii for (s)i ; iii for sh(i).

Tonal variation should be labeled as well.

l         MIS:杂类层,标注table 1中的口语现象.

l         ACC 口音层, 详见 table 2; 对话的说话人AB C……表示也在这层标出。

l         SM: 语句功能层,详见 table 4.

l         BI:韵律边界层(间断指数),详见table5.

l         ST:重音层:详见table5.

标注例子

 

Phenomena

Lablels

1

拖音              lengthening

[LE ]

2

喘息              breathing

[BR ]

3

笑声              laughing

[LA ]

4

哭声              crying

[CR ]

5

咳嗽              coughing

[CO ]

6

间断          disfluency

[DS ]

7

噪音              noise

[NS ]

8

沉默              silence (long)

[SI ]

9

含混音    murmur/uncertain segment

[UC ]

10

语气词    modal/exclamation

[MO ]

11

咂嘴音    smack

[SM ]

12

其他语言 non-Chinese

[NC ]

13

吸鼻音   sniffle

[SN ]   

14

打哈欠  yawn

[YA ]

15

重叠发音   overlap

[OV ]

16

插话   interjection

[IN]

17

吞咽   deglutition

[DE]

18

清嗓子   hawk

[HA]

19

打喷嚏   sneezes

[SE]

20

电话忙音  beep

[BP]

21

颤音    trill

[TR]

22

口误    error

[ER]

23

话题开始标志   topic start mark

[TP]

Table 1. 口语现象/副语言学现象标注符号

 

 

 

 

Table 2.  Accent labeling principle (please attach the accent labels if you have new ones )

有待讨论:

ACCENT

labels

普通话

缺省不标

上海

SH

天津

TJ

广州

GZ

苏州

SZ

沈阳

SY

 

 

 

Table 3. Sound changes

Classfications

SAMPA-C

Examples

in IPA

in SAMPA-C

Explanation

        Nasalized

~

a‹

§~

'§' is nasalized.

        Centeralized

_"

e_"

'e' is centeralized.

        Voiceless

_u

n%

n_u

'n' is voiceless.

        Voiced

_v

d_v

'd' is voiced.

圆唇化      More Rounded

_O

f_O

'f' is more rounded.

成音节      Syllabic

=

M=

'M' is syllabic.

        Pharyngealized

Ø_?\

t/

A_?\

'A' is pharyngealized.

        Inserted

(+)

 

(N+)

'N' is inserted.

        Deleted

(-)

 

(i-)

'i' is deleted.

           aspirated/breathy

_h

a!

a_h

'a' is more breathy

 

 

 

Table 4.   Sentence function tier labels

 

Sentence function

labels

statement

S

interrogative

Q

imperative

I

exclamation

E

bitty utterance

B

 

Example                

 

 

 

 

 

 

 

table 5      BI(间断指数),ST(重音)标注方法说明

层名

标注规范说明

间断指数层(BI):

    本层实际是标记汉语的韵律结构。间断指数代表感知到的音节之间以及音节和无声段(silence)之间的音联程度,每一个音节之后都必须有一个间断指数标记。话语的韵律结构是层级组织结构,从小到大可以分为:音节、音步、韵律词、韵律短语和语调单位。韵律结构和句法结构不一定一一对应。

    间断指数值的划分:

0(缺省值,未标出):韵律词内的音节边界。如"中国"""之后的间断是0

1:间断比0大,常常韵律词之间的间断如此。韵律词一般由1-4个音节,可以是一个两音节标准音步、三音节超音步、蜕化单音步和一个四字格的复合韵律词。它只有一个词重音,有比较固定的调连模式。对一些轻读/轻声音节,如功能词,他们可以和其相连的词组成一个多音节韵律词。

2:如果短语后感知到的间断较短,1大比3小,它与后面一个短语的连接较紧密,则此短语后间断标记为3。很多情况下,这是次要韵律短语 ( minor phrase)的边界

3:如果短语后感知到的停顿较长,它与后面一个短语的连接较松散,而且有基频重设(resetting)等现象,则将此短语标为后的间断标记为3。很情况下,这是主要韵律短语(major phrase)的边界。

4:由若干个基频曲线依次递降的主要短语组成语调组(intonation group)。P: 不正常间断,如说话人犹豫或被别人打断的间断。   

 

重音层(ST):

标记每个韵律单位的重音,共分0123级。汉语的重音也是与韵律结构对应的层级结构。

0:韵律词内(间断指数层0级)各音节重音为0(默认值,未标出)。

1:韵律词(间断指数层1级)中最重音节重音标为1

2:次要韵律短语(间断指数层2级)中最重音节重音标为2

3:主要韵律短语(间断指数层3级)中最重音节重音标为3

语调组因为一般较长,不易感知出最重音节,故该层级的重音不标。

    若某一音节在从不同韵律层级看其重音级别不同时,只标出最高级别的重音(如某一音节不仅在所在韵律词中为最重,还在所在次要韵律短语中最重,则其重音级别只标为2)。     

TSC973录音和存储规范

采用电话通道录音,声音文件以8KHz采样,16bit精度,单声道Wave格式存储。