语音语料库标注规范

一、           标注说明

1.1 标注软件以及标注文件格式

标注软件使用Praat语音分析软件(http://www.fon.hum.uva.nl/praat/)。

标注文件名对应声音文件号+textgrid后缀,如A0001.textgrid是A0001句对应的标注文件,可以用praat调用。标注文件和声音文件存于同一个目录下面。

 

1.2 语音标注内容

    尽管录音过程中尽量控制发音人的发音错误,但是也很难避免个别的实际发音与所给发音语料的细小的差别。因此,我们对每个发音人的文本按照实际的发音进行了修正,准确文本见每句对应的praat标注文件。

    标注分为精标和粗表两个部分。精标部分每个方言点选取20个人(1010女)语音,覆盖一整套设计的语料,并考虑发音人的年龄和学历分布等,见表1A-1B。剩余部分均为粗标。

 

       精标包括以下内容

1、  对所有发音人的口语独白进行了语音到文字的转写,包括口语中出现的副语言学和非语言学信息的转写(见下面的转写规范说明)。

2、  所有朗读、常用方言词汇和回答问题的汉字的转写。如果是出现数字,那么用汉字标注,如“五十二”。如果是英文网址用英语表示,chinarencom 字母单读时,字母之间用空格隔开。

3、  对所有朗读、常用方言词汇和回答问题的正则拼音的转写,并且标注分词信息。如果是英文网址用英语表示,Chinarencom 字母单读时,字母之间用空格隔开。

4、  对所有朗读和回答问题的对应时间点的正则音节标注,并且标注副语言学和非语言学的现象。如果是英文单词,如com,则作为一个单元切分标注; 字母单读时,每个字母切分开标注。

5、  对所有朗读和回答问题的对应时间点的声母和韵母实际的读音拼音标注,包括增音、减音等语音音变标注,以及由于方言引起的“错误发音”。

6、  对所有朗读和回答问题的对应时间点的声母和韵母实际的读音SAMPA-C符号标注。

 

粗标包括以下内容:

1对所有发音人的口语独白进行了语音到文字的转写,包括口语中出现的副语言学和非语言学信息的转写(见下转写规范说明)。

2、  所有朗读、常用方言词汇和回答问题的汉字的转写。如果是出现数字,那么用汉字标注,如“五十二”。如果是英文网址用英语表示,chinarencom 字母单读时,字母之间用空格隔开。

3、  对所有朗读、常用方言词汇和回答问题的正则拼音的转写,并且标注分词信息。如果是英文网址用英语表示,chinarencom 字母单读时,字母之间用空格隔开。

 

1    各个方言点普通话精标语料发音人编号 (说明:口音按照普通话水平分为三级,从高到低用A,B,C 表示,每一级又分为甲乙两等。如B-2表示普通话水平是二级乙等。)

 

1A  广州普通话精标语料发音人编号和信息

发音人编号

句号

口音

年龄

文化程度

GZM041

S0001-S0110

B-2

32

大专

GZM022

S0111-S0220

B-2

20

本科

GZM023

S0221-S0330

B-2

20

本科

GZM084

S0331-S0440

B-2

30

大专

GZM025

S0441-S0550

B-2

18

中专

GZM006

S0551-S0660

B-2

20

大学

GZM027

S0661-S0770

C-1

20

大学

GZM068

S0771-S0880

B-1

30

本科

GZM089

S0881-S0990

B-2

33

本科

GZM070

S0991-S1100

B-2

31

大专

GZF051

S1101-S1210

B-2

50

大学

GZF092

S1211-S1320

B-1

21

大学

GZF033

S1321-S1430

B-2

21

大学

GZF074

S1431-S1540

B-2

39

大学

GZF015

S1541-S1650

B-1

22

大学

GZF096

S1651-S1760

A-2

19

大学

GZF077

S1761-S1870

B-2

34

本科

GZF018

S1871-S1980

A-2

21

大学

GZF039

S1981-S2090

B-1

30

大学

GZF080

S2091-S2211

B-1

32

 

1B  上海普通话精标语料发音人编号和信息

发音人编号

句号

口音

年龄

文化程度

SHM081

S0001-S0110

B-2

45

高中

SHM042

S0111-S0220

B-2

53

大专

SHM013

S0221-S0330

C-1

43

大专

SHM044

S0331-S0440

B-2

49

高中

SHM025

S0441-S0550

B-1

24

本科

SHM066

S0551-S0660

B-2

46

高中

SHM007

S0661-S0770

B-2

20

本科

SHM048

S0771-S0880

B-1

33

高中

SHM069

S0881-S0990

C-2

50

初中

SHM050

S0991-S1100

A-2

24

大专

SHF011

S1101-S1210

B-2

21

本科

SHF072

S1211-S1320

A-2

58

大学

SHF053

S1321-S1430

B-2

39

高中

SHF094

S1431-S1540

C-1

45

中专

SHF055

S1541-S1650

A-2

20

大专

SHF036

S1651-S1760

B-1

38

研究生

SHF017

S1761-S1870

B-2

22

本科

SHF058

S1871-S1980

B-2

41

高中

SHF019

S1981-S2090

B-2

21

本科

SHF060

S2091-S2211

B-1

30

高中

 

1C  重庆普通话精标语料发音人编号和信息

发音人编号

句号

口音

年龄

文化程度

CQM001

S0001-S0110

B-1

26

大专

CQM022

S0111-S0220

B-2

63

大学

CQM023

S0221-S0330

B-1

28

大学

CQM044

S0331-S0440

B-2

20

本科

CQM085

S0441-S0550

C-2

40

中技

CQM086

S0551-S0660

B-2

28

初中

CQM027

S0661-S0770

B-2

47

高中

CQM048

S0771-S0880

B-1

20

专科

CQM049

S0881-S0990

B-2

21

本科

CQM070

S0991-S1100

A-2

58

大学

CQF071

S1101-S1210

B-1

52

大专

CQF032

S1211-S1320

A-2

21

本科

CQF073

S1321-S1430

B-2

31

高中

CQF094

S1431-S1540

B-2

34

大专

CQF035

S1541-S1650

B-2

38

本科

CQF036

S1651-S1760

A-2

30

本科

CQF017

S1761-S1870

B-1

20

大专

CQF018

S1871-S1980

B-1

22

大专

CQF059

S1981-S2090

B-2

49

中专

CQF080

S2091-S2211

B-2

30

大学

 

1D  厦门普通话精标语料发音人编号和信息

发音人编号

句号

口音

年龄

文化程度

XMf041

S0001-S0110

B-2

20

大专

XMf002

S0111-S0220

B-1

27

大学

XMf063

S0221-S0330

B-2

41

高中

XMf064

S0331-S0440

B-2

43

高中

XMf045

S0441-S0550

B-1

19

大专

XMf086

S0551-S0660

B-1

32

大专

XMf067

S0661-S0770

B-1

18

大学

XMf028

S0771-S0880

B-2

50

高中

XMf049

S0881-S0990

B-2

46

初中

XMf070

S0991-S1100

B-1

19

大专

XMm051

S1101-S1210

B-1

21

本科

XMm012

S1211-S1320

B-1

21

本科

XMm033

S1321-S1430

B-1

22

本科

XMm074

S1431-S1540

B-1

50

大学

XMm035

S1541-S1650

B-1

21

大学本科

XMm056

S1651-S1760

B-2

29

大专

XMm037

S1761-S1870

B-1

24

本科

XMm058

S1871-S1980

B-1

33

本科

XMm019

S1981-S2090

B-1

25

硕士

XMm020

S2091-S2211

B-1

18

高中

 

 

二、           标注规范

21 口语到汉字的转写

   转写实际发音,包括口语中出现的副语言学和非语言学现象。转写符号和例句见表1

2   口语现象/副语言学现象标注符号

 

现象

标注符号

例句

1

拖音           lengthening

[LE ]

[MO][LE],还有那个[LE]保龄球,橄榄球等等,都是非常喜欢[SM].       

2

喘息           breathing

[BR ]

[BR]我的业余爱好是看书[BR].   

3

笑声           laughing

[LA ]

本来我也很想报那所[LA 学校].  

4

哭声           crying

[CR ]

[CR 他学历很高,是一名大学生].

[CR 我非常崇拜他写一手好字].  

5

咳嗽           coughing

[CO ]

[CO]到上海去看病也不会好[BR]. 

6

间断           disfluency

[DS ]

我跟我爱人是在一九[DS]七五年[DS]认识的. 

7

噪音           noise

[NS ]

因为[NS],那里很多老鼠,爸妈就[DS],买了很多猫回来养.

8

沉默           silence (long)

[SI ]

到了北京[SI],所谓的北京的几大名吃[BR],南方人吃起来,总觉得味儿不大对劲[BR]. 

9

含混音murmur/uncertain segment

[UC ]

[UC].  

10

语气词         modal/exclamation

[MO ]

[MO][BR][MO]我说的话题是上网的感觉.  

 

11

咂嘴音       smack

[SM ]

天安门[SM]对面就是个高高的纪念碑,然后,往后就是毛主席的纪念堂. 

12

其他语言 non-Chinese

[NC ]

然后中国人的话,不是说特别的[NC][BR],但是日本人和韩国人就更加的[NC]. 

13

吸鼻音   sniffle

[SN ]   

瞧多可爱的儿子[SN][DE].瞧多可爱的儿子,还有每次吃饭,他总是抢着第一个去吃[BR].  

14

打哈欠  yawn

[YA ]

 

15

重叠发音   overlap

[OV ]

 

16

插话   interjection

[IN]

 

17

吞咽   deglutition

[DE]

所以说在学英语当中,第一个要注重[BR]怎么样去[DE]解释这个单词.   

18

清嗓子   hawk

[HA]

而且吧[MO],特别[HA]特别是不喜欢上台[HA].

19

打喷嚏   sneezes

[SE]

 

20

电话忙音  beep

[BP]

[BP]说起来[LE]这些就是我[LE][BP 现在想要说的].

21

颤音    trill

[TR]

但是[HA],由于书[TR]上呢[MO],保留了这个技术.

22

口误    error

[ER]

[ER][MO]还有那个[BR]笛子,也学过一点. 

23

填充停顿 filled pause

[FP]

而现在[DS],由于[DS]那个[FP]  

24

感叹   exclamation

[EX]

当时我的第一的[DS]第一个感觉就是[BR],[EX哎呀[MO]我说普通话怎么这么差呀[MO]]!  

25

重复发音  repetition

[RE]

然后就[DS],就向他挑战吧[MO],比如说[RE 我我[BR]我我]要在这个地方杀一个人.   

 

26

歌声  song

[SO]

 

27

废弃音

[DIS]

 

2.   2语音学标注

    朗读发音的标注,包括在时间点上标注正则的发音和实际发音,并且标注由于方言口音引起的“错误发音”。精标包括以下4个层次的标注,粗标只标前两层。

第一层:汉字层(HZ),标注汉字。

第二层:拼音层(PY),标注正则拼音。

第三层:音节层(YJ),对应时间点的正则音节拼音标注,并且标注副语言学和非语言学的  现象(符号 2)

第四层:声韵层 (SY),对应时间点的实际的声母和韵母读音的拼音标注,包括增音、减音等语音音变(表3),以及由于方言口音引起的“错误发音”(表4),同时标注副语言学和非语言学的现象(符号见表2)

第五层:SAMPA-C声韵母层(SAM, 对应时间点的实际的声母和韵母读音的SAMPA-C符号标注。SAMPA-C是基于SAMPA 标注集的汉语标注规范,是方便机读和数据交换的对应IPA的符号集。(http://www.phon.ucl.ac.uk/home/sampa/ home.htm

 

     第四层标注是难点。由于受方言的影响,发音人的声韵母是方言、普通话和介于两者之间的发音的“混合物”。

     我们给出了四个方言的声韵母的拼音、IPASAMPA-C符号对应表,以及普通话的声韵母的拼音、IPASAMPA-C符号对应表,见本目录下文件“普通话声韵母表”、“广州话声韵母表”、“厦门话声韵母表”、“重庆话声韵母表”、“上海话声韵母表”。各地标注的出现的符号是方言声韵母+普通话声韵母。

     方言声韵母表的确定主要按照新派发音制定的,参考了中国社会科学院语言所的《现代汉语方言大词典》系列等各家的研究成果。

3. 语音音变标注符号

音变

SAMPA-C

Examples

IPA

SAMPA-C

Explanation

      Nasalized

~

a‹

a~

'a'鼻化

      Centralized

_"

e_"

'e' 央化

      Voiceless

_u

n%

n_u

'n' 清化

      Voiced

_v

d_v

'd' 浊化

圆唇化    More Rounded

_O

f_O

'f'圆唇化

成音节    Syllabic

=

M=

'M' 音节化

         Pharyngealized

Ø_?\

§/

A_?\

'A'  

      Inserted

(+)

 

(N+)

'N' 增音

      Deleted

(-)

 

(i-)

'i' 减音

       aspirated/breathy

_h

a!

a_h

'a' 气化

 

4        特殊符号

符号

表示意义

举例

#

由于方言口音引起的错误发音

 

*

错误发音

 

sil

静音段

 

sil_v

浊化静音段,如VOT为负值时候

 

 

 

2.3 语音标注例子

 

精标例一:“上海餐厅”。HZ为汉字层,PY为带分词标记的正则拼音层,YJ为时间点对齐的音节拼音层,SY为时间点对齐的声韵母实际发音标注。

’#s’表示由于方言引起的错误读音,将’sh’’读成了’s’

 

 

精标例二: “女娲补天,女娲,女娲” ‘*h *uo’ 表示错误发音。

 

粗标例一:            “科恩今天下午参观了上海证券交易所” HZ 为汉字层,PY为正则拼音层。”/” 为分词符号。

 

粗标例一:“企业与员工企业与各户共同发展,每一位员工都是企业的主人”

 

 

 

 

 

发音人规范

每个地区发音人200个,没有发音障碍,听力正常。年龄、性别以及口音和文化程度分布如下, 允许误差5%。

口音按照普通话水平测试标准分级,分为三级,每级又分甲乙两等。首先由录音人判断发音人的普通话级别,最终由专家抽样检查。

我们在上海、重庆、广州和厦门,除了选择市区发音人以外,还选择一定比例的郊县发音人,适当扩大口音范围。以收集中等口音为主,三级口音为辅,一级乙等口音占很少一部分。

每个方言点的发音人信息请参见“..\规范\发音人规范\发音人名单”目录中的WORD文件,其中有每个发音人的序号,所用本方言点语料编号、姓名、年龄、性别、文化程度、联系电话、录音时间、口语独白的话题、录音场所面积、录音场所噪音、普通话等级等信息。

 

发音人要求和分布

 

年龄

青年

中年

老年

50%

40%

10%

性别

男女各一半

男女各一半

男女各一半

口音

中度二级口音80%,一级乙等5%,三级15%

文化程度

90% 高中以上学历,10%高中以下学历

 

 

以下是各方言点发音人的统计情况。

重庆发音人数分布

男声

女声

16-25(岁)

52(人)

16-25(岁)

55(人)

26-50(岁)

39(人)

26-50(岁)

35(人)

50岁以上

9(人)

50岁以上

10(人)

初中学历人数

4(人)

初中学历人数

5(人)

高中学历人数

23(人)

高中学历人数

40(人)

高中以上学历人数

73(人)

高中以上学历人数

55(人)

总计人数

   100(人)

总计人数

100(人)

 

 

 

广州发音人数分布

男声

女声

16-25(岁)

47(人)

16-25(岁)

55(人)

26-45(岁)

48(人)

26-45(岁)

39(人)

46岁以上

5(人)

46岁以上

6(人)

初中学历人数

3(人)

初中学历人数

1(人)

高中学历人数

11(人)

高中学历人数

16(人)

高中以上学历人数

86(人)

高中以上学历人数

83(人)

总计人数

   100(人)

总计人数

100(人)

 

 

上海发音人数分布

男声

女声

16-30(岁)

45(人)

16-30(岁)

46(人)

31-45(岁)

46(人)

31-45(岁)

43(人)

46岁以上

9(人)

46岁以上

11(人)

初中学历人数

10(人)

初中学历人数

9(人)

高中学历人数

37(人)

高中学历人数

42(人)

高中以上学历人数

53(人)

高中以上学历人数

49(人)

总计人数

    100(人)

总计人数

100(人)

 

 

厦门发音人数分布

男声

女声

18-30(岁)

45(人)

18-30(岁)

46(人)

31-45(岁)

46(人)

31-45(岁)

43(人)

46岁以上

9(人)

46岁以上

11(人)

初中学历人数

10(人)

初中学历人数

9(人)

高中学历人数

37(人)

高中学历人数

42(人)

高中以上学历人数

53(人)

高中以上学历人数

49(人)

总计人数

    100(人)

总计人数

100(人)

 

录音和存储规范

【录音设备】

 

我们配置两套录音设备,每套包括:笔记本电脑一台,USB 声卡 (M-Audio mobilepre)。两通道信号:分别采用德国的森海塞尔(Sennheiser)头式话筒和797厂生产的CR722电容传声器(20-20000Hz)录制。

录音时,记录录音的声学空间面积和背景噪音大小(重庆除外)。

 

 

【录音软件】

4-5分钟的口语语料用Cooledit pro2录制。

语句用我们编制的录音软件录制,同时录制近距话筒(离嘴角2-8cm)和中距离话筒(20-50cm)两个通道语音信号。

 

【数据存储】

 

以16KHz采样16bit精度,Wave格式存储。每个文件至少存贮在不同的两种存储介质上,每位发音人对应一个描述文件info.txt,记录发音人的信息:

-------------------------------------

peaker information:

Speaker ID:    XMF001

Speaker Age:   30-45

Speaker Gender:    Female

Speaker Local:     厦门

Education Background:   高中

 

System information:

Channels :     Stereo

BitsPerSample:     16

SampleRate:    16000

Scenario:      Office

Style:    Read

 

Device information:

Sound Card :   M-Audio MobilePre

Left Channel Microphone:     CR722

Right Channel Microphone:    CR722

 

Record Transcript:

 

------------------------------------------------

 

 

 

每一个声音样本对应一个描述文件: XXXXx.inf (xxxxx为声音文件名)

----------------------------------------

LHD: SAMPA

//标注规范

DBN: RASC863

//料库名

SES: Xmf001

//录音文件夹编号

CMT: *** Speech Label Information

SRC: A0001.a.wav,A0001.b.wav

//各通道的文件名

DIR: ..\Xmf001

//录音文件存放目录

CCD: 1

//语料编号

BEG: 0

//labled sequence begin position

END: 3.133375

//labled sequence end position

REP: office

//录音场景

RED: 12-23-2003

//录音日期

RET: 17:20:28

//录音时间点

CMT: *** Speech Data Coding ***

SAM: 16000

//SampleRate

SNB: 2 signed

//BytesPerSample

SBF: lohi

//Sample byte order

SSB: 16

//BitsPerSample

QNT: PCM

//录音格式

NCH: 2

//通道数

CMT: *** Speaker Information ***

SCD: 001

//发音人ID

SEX: female

//性别

AGE: 31-40

//年龄

ACC: Xiamen

//录音地点

CMT: *** Recording Conditions ***

SNQ:

//通道的SNR

MIP: close,medium

//Mic与发音人的位置关系

MIT: SENNHEISER_ME64,797_CR722

//Mic信息

SCC: ENV=office

//环境信息

DBA: 38

CMT: *** Label File Body ***

LBD: A0001.textgrid

//标注文件

LBR: 0,3.133375

//Prompt text的begin end  gain  min max

LBO: 0,3.133375

//Prompt text的begin end  gain  min max

ELF:

------------------------------------------

 

 

 

 

录音语料设计规范

 

连续汉语语音识别作为一种解决中文输入的最便捷的途径,正在飞速的发展。作为一种典型的有监督的模式识别系统,必须为系统的创建提供训练样本。本文就是描述为语音识别系统提供训练样本而设计的语料库的。

863项目资金的资助下,在1998年建立了一个基于语言学/语音学规则的朗读文本语料库。这一语料库的建立,极大的推动了语音工程的发展。但是随着这些年来的语音工程进步,需要设计新的语料。

RASC863语料库有如下的特点:第一,这个语料库中的语音平衡的句子主要是从口语语料挑选来的,所以更符合语音识别面对的真实情形;第二,语料库中的句子在内容和语义上都是完整的,所以能够尽可能的反映一个句子的韵律信息;第三,我们对三音子不进行归类的挑选,这样可以有效的解决训练数据稀疏的问题。第四,将被挑选句子的最大长度增加到35字,从某种程度上可以算是一个小篇章,增加韵律结构的复杂度。

 

语料挑选原则】 口语为主。尽量覆盖语音现象,包括音段搭配和超音段的组合。

 

原始语料】

l         小说

l         课本

l         电影剧本

l         聊天访谈

l         现代汉语示例

 

语料】

每个方言点包含20套语料,具体语料文本参见“文本语料”目录下各地语料子目录。(注:RASC863制作过程中,发音人个别实际发音可能会和本参考语料有微小差异,最终准确发音语料以其PRAAT标注文本为准。

每套录音语料包括口语和朗读两种体裁。每个发音人的录音语料具体组成内容见表1。

独白3-5分钟,由发音人从160个话题中任意选择一个适合自己的话题,然后用自然的口语讲述。文件名为:(CQ/GZ/SH/XM)Spon(f/m)xxx.wavxxx代表具体数字编号)。例如重庆地区1号女发言人数据为:Cqsponf001.wav.(注:重庆地区f093口语独白空缺,在此致歉。)

15个问题是让发音只回答一些问题,包括工作单位、个人爱好、联系电话、网址、数字等问题。对应文件名称为:Axxxx(xxxx代表具体数字编号)。

常用口语句子,我们收集了460个,每个发音人读20个。对应文件名称为:Qxxxx(xxxx代表具体数字编号)。

本地方言词汇各地收录的数量不尽相同,涉及日常口语特别是和普通话说法不同的词汇,如厦门地区将“便利”说成“利便”;“不要紧”说成“无要紧”等。这部分是要求发音人用方言说出来。对应文件名称为:Dxxxx(xxxx代表具体数字编号)。

语音平衡的句子,选自访谈对话、口语对话以及人民日报等语料,句长小于35个音节,尽量覆盖所有的音节间的三音子音联。整个挑选的句子有2200个,原始语料覆盖音节间两音子96%,挑选语料覆盖音节间三音子84%。覆盖所有音节间两音子和几乎所有音节。同时兼顾2-3音节词的声调搭配。对应文件名称为:Sxxxx(xxxx代表具体数字编号)。

各部分具体语料请参见“文本语料”目录下的“总语料.xls”文件。

口语独白部分的160个常见参考话题请参见“文本语料”目录下的“话题160.doc”文件。

1:每个发音人的发音语料 prompt sheet

每个发音人语料的组成

发音方式

内容说明

(CQ/GZ/SH/XM)Spon(f/m)xxx

自然独白口语

 发音人自由挑选一个话题口述:3-5分钟

a0001-a0015

自然口语

回答15个问题

qxxxx

朗读

常用口语句子 每人20个

dxxxx

朗读

本地常用词汇若干 (方言)

sxxxx

朗读

语音平衡的句子 110句左右