汉语普通话桌面识别语音库制作

技术文档

天籁数据中心

2006/04/04

1         产品名称

汉语普通话桌面识别

2         产品持有者

天籁数据中心

3         产品创建时间

二零零五年五月

4         目的

主要用于桌面自然语音识别的测试和训练

5         汉语普通话桌面识别库的语料构成

5.1      产品包括:

此数据库为数字串内容,共3600句。采集的是头戴式抗噪音麦克的信号。

5.2      文本文件格式:

n        文本为校对并标注后的文本文件,文字以Unicode编码进行编辑。

5.3      声音文件格式:

n        声音文件为:22.05k采样频率、16bit量化精度、单声道的Windows PCM wav文件。

6         桌面识别录音及后期制作技术参数

6.1      发音人信息

该数据库共包括120人,为社会人员和在校学生。

6.2      按性别划分

女生:61            男生:59

6.3      录音环境

选择环境噪音较小的录音场所。

6.4      录音平台

本次录音使用的是Windows XP操作系统,外接2.0USB声卡,并使用头戴式抗噪麦克风进行录音。

6.5      制作方法

n        正式录音前,先进行监听人员培训,录音规则都掌握好后才可开始录音;

具体操作:

n        USB外接声卡连接到笔记本电脑上;

n        头戴式麦克连接到USB外接声卡上;

n        USB外接声卡上的增益调节钮固定在相同位置,保持采集的声音噪音相对固定;

n        话筒应位于发音人嘴角的外测,稍微偏上一些,尽量减少发音人出现喷话筒现象,可以根据发音人的音量不同,适当的调整话筒的远近度。

6.6      产生文件格式

录制完成后,声音文件为22.05k采样频率、单声道、16bit量化精度的WAV文件。

 

6.7      容量

本数据库的声音文件容量为991,427,684Byte(未经压缩的语音信号)。

6.8      数据后期处理

n        声音文件的后期处理

l        声音文件的个数与发音文本相匹配;

l        每句声音文件的头、尾都保留一定的静音段。如果监听人员操作失误,没有保留静音段,则需要补录该句。

 

n        文本文件的后期处理

l        校对

Ø        按照发音人真实发音修改文本;

例:“12 456”读成“12 546”,文本修改成:“12 546”。

Ø        对发音的要求:0167正确读音为:ling2yi1liu4qi1

例:“1”读成“yao1”,需要标注为:<B>1{yao1yi1}</B>

32 168”读成:“三十二 一百六十八”,则需要将文本中“32 168”改成“三十二 一百六十八”。

Ø        如果某句话发音人没有读,将该局文本删掉,保留句子号;

 

l        标注

Ø        标注工具——Mark tool

Ø        根据真实发音在文本上标注相应的信息(如:背景杂音、背景语音、及由发音人引起的各种语音信息);

Ø        由于发音人抢录而使语音信号受损的,用[]表示;

Ø        如果整个字的语音信号全部没有则用[*]表示;

Ø        由于信号传输的问题而使语音信号受损的用{}表示。

Ø        没有语音信号的句子,把句子内容删去,留下句子号。

Ø        句中重复的字或词如果,需要进行标注,用<R><>

Ø        对于ZzhCchSshrynlining不分的不用进行标注。

Ø        所有标注信息,全部按照寂静区归前原则,也就是标注在标点符号前面。

Ø        信号较小的杂音不进行标注。

Ø        和语音信号重叠的杂音不进行标注。

 

 

附:具体标注规则:

 

类别

名称

释义

举例

由发音人引起的

模糊语音

发音人语音模糊难辨的、读的不好的。<A></A>

12 456”的 5”字几乎不可分辨

读错语音

发音人读错字的,更改后语义不通的。<B></B>

1”读成“yao1”需标注为<B>1{yao1yi1}</B>

重复语音

发音人重复的字或词,添加后不能成为一个完整语义的句子。<R></R>

11 253”读成“11 2553

语气语音

发音人发出的、习惯性的、无意义的语气词。<C></C>

嗯,呵,哼及一些难以用汉字表示的声音

呼吸声

录音人口中发出的呼吸声。<D></D>

单纯的呼吸声

咂嘴声

录音人口中发出的咂嘴声。<H></H>

咂嘴声(发音人故意发出的)

其他非语音信号

录音人口中发出的其他非语音信号。<I></I>

笑声、喝水声、喷话筒声等(除呼吸声和咂嘴声以外的声音)

由录音环境造成的

背景语音

非发音人语音被录制到录音文件中的<E></E>

 

背景杂音

录音环境中,人为或非人为因素产生的其它声音,通过microphone拾音后,被录制到录音文件中的。<F></F>

明显的背景杂音,杂音音量至少是语音信号的五分之一(如说话声、开门声、砸东西声等)

电磁杂音

各种非正常电磁干扰信号,通过录音设备放大后,被录制到录音文件中的。<G></G>

明显的信号干扰声(如手机信号引起的共振、汽车经过的时候的电磁声等)

 

7         产品光盘说明

7.1      说明

该产品为主要用于桌面自然语音识别的测试和训练,采集的是头戴式抗噪麦克风录音。

7.2      产品内容

n        MatadataTable:存放该产品的相关信息。包括:发音文本及发音人信息等内容。

n        DeskTop Numeric String:存放该产品的所有声音文件。

7.3      产品容量

该产品总容量为:945MB*