973 电话语料库标音说明
使用软件praat, 标注7层:
l PY: 拼音层, canonical pinyin and tones. Retroflexed syllable is labeled both on this tier and on the SY tier; ? for uncertain segments
l SY: 声韵层, initials and finals with some sound changes as shown in table 3.
? for uncertain segments; ii for (s)i ; iii for sh(i).
Tonal variation should be labeled as well.
l MIS:杂类层,标注table 1中的口语现象.
l ACC: 口音层, 详见 table 2; 对话的说话人A、B 、C……表示也在这层标出。
l SM: 语句功能层,详见 table 4.
l BI:韵律边界层(间断指数),详见table5.
l ST:重音层:详见table5.
Table 1. 口语现象/副语言学现象标注符号
Table 2. Accent labeling principle (please attach the accent labels if you have new ones )
有待讨论:
ACCENT |
labels |
普通话 |
缺省不标 |
上海 |
SH |
天津 |
TJ |
广州 |
GZ |
苏州 |
SZ |
沈阳 |
SY |
Table 3. Sound changes
Classfications |
SAMPA-C
|
Examples |
||
in IPA |
in SAMPA-C |
Explanation |
||
鼻
化 Nasalized |
~ |
a‹ |
§~ |
'§' is nasalized. |
央
化 Centeralized |
_" |
eƒ |
e_" |
'e' is centeralized. |
清
化 Voiceless |
_u |
n% |
n_u |
'n' is voiceless. |
浊
化 Voiced |
_v |
dŒ |
d_v |
'd' is voiced. |
圆唇化 More
Rounded |
_O |
|
f_O |
'f' is more rounded. |
成音节 Syllabic |
= |
|
M= |
'M' is syllabic. |
喉
化 Pharyngealized |
Ø_?\ |
t/ |
A_?\ |
'A' is pharyngealized. |
增
音 Inserted |
(+) |
|
(N+) |
'N' is inserted. |
减
音 Deleted |
(-) |
|
(i-) |
'i' is deleted. |
送
气 aspirated/breathy |
_h |
a! |
a_h |
'a' is more breathy |
Table 4. Sentence function tier labels
Sentence function |
labels |
statement |
S |
interrogative |
Q |
imperative |
I |
exclamation |
E |
bitty utterance |
B |
table 5. BI(间断指数),ST(重音)标注方法说明
层名 |
标注规范说明 |
间断指数层(BI): |
本层实际是标记汉语的韵律结构。间断指数代表感知到的音节之间以及音节和无声段(silence)之间的音联程度,每一个音节之后都必须有一个间断指数标记。话语的韵律结构是层级组织结构,从小到大可以分为:音节、音步、韵律词、韵律短语和语调单位。韵律结构和句法结构不一定一一对应。 间断指数值的划分: 0(缺省值,未标出):韵律词内的音节边界。如"中国"的"中"之后的间断是0。 1:间断比0大,常常韵律词之间的间断如此。韵律词一般由1-4个音节,可以是一个两音节标准音步、三音节超音步、蜕化单音步和一个四字格的复合韵律词。它只有一个词重音,有比较固定的调连模式。对一些轻读/轻声音节,如功能词,他们可以和其相连的词组成一个多音节韵律词。 2:如果短语后感知到的间断较短,比1大比3小,它与后面一个短语的连接较紧密,则此短语后间断标记为3。很多情况下,这是次要韵律短语 ( minor phrase)的边界 。 3:如果短语后感知到的停顿较长,它与后面一个短语的连接较松散,而且有基频重设(resetting)等现象,则将此短语标为后的间断标记为3。很情况下,这是主要韵律短语(major phrase)的边界。 4:由若干个基频曲线依次递降的主要短语组成语调组(intonation group)。P: 不正常间断,如说话人犹豫或被别人打断的间断。 |
重音层(ST): |
标记每个韵律单位的重音,共分0、1、2、3级。汉语的重音也是与韵律结构对应的层级结构。 0:韵律词内(间断指数层0级)各音节重音为0(默认值,未标出)。 1:韵律词(间断指数层1级)中最重音节重音标为1。 2:次要韵律短语(间断指数层2级)中最重音节重音标为2。 3:主要韵律短语(间断指数层3级)中最重音节重音标为3。 语调组因为一般较长,不易感知出最重音节,故该层级的重音不标。 若某一音节在从不同韵律层级看其重音级别不同时,只标出最高级别的重音(如某一音节不仅在所在韵律词中为最重,还在所在次要韵律短语中最重,则其重音级别只标为2)。 |
采用电话通道录音,声音文件以8KHz采样,16bit精度,单声道Wave格式存储。