汉语普通话电话识别语音库制作

技术文档

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

天籁数据中心

2006/04/03

1         产品名称

汉语普通话电话识别

2         产品持有者

天籁数据中心

3         产品创建时间

二零零四年三月

4         目的

主要用于电话自然语音识别的测试和训练

5         汉语普通话电话识别库的语料构成

5.1      产品包括:

此数据库包括股票6972句,采集的是手机信号。

5.2      文本文件格式:

n        文本为校对并标注后的文本文件,文字以Unicode编码进行编辑。

5.3      声音文件格式:

n        声音文件为:8k采样频率、16bit量化精度、单声道的Windows PCM wav文件。

6         电话识别录音及后期制作技术参数

6.1      发音人信息

该数据库共包括265人,为社会人员和在校学生。

6.2      按性别划分

女生:131          男生:134

6.3      录音环境

选择环境噪音较小的录音场所。

6.4      录音平台

本次录音使用的是Windows 2000操作系统,在系统机器上安装电话录音卡作为录音软件,并把指定电话线接入电话语音卡上,发音人就可以通过手机拨打指定电话进行录音。

6.5      制作方法

n        将指定电话线接入电话录音系统(该系统由来电录音服务器组成)的电话录音卡上;

n        发音人拨打指定电话,电话语音卡在接收到振铃信号摘机,系统开始录音操作;

l        系统开始录音操作后,发音人就会听到话筒中有语音信号:“您好!请录制您的ID号码,按‘#’键确认”;

l        发音人根据系统提示输入给定的四位ID号码,以‘#’键结束;

l        系统提示录制信息文件:“听到‘嘀’声后,请录制您的姓名、年龄、籍贯,录制完成后确认请按‘1’,重录请按‘2’”;

l        根据系统的提示,发音人录制个人信息,个人信息录制完之后再按‘1’确认,也可按‘2’重新录制;

l        录制第N条录音,系统提示:“第N句”;

l        每句话录完之后都按‘1’确认保存,如果本句话读错了,则按‘2’重新录制;

l        重复第5步,直到该发音人所以录音录制完成。

n        将录制完的声音文件导入计算机即可。

6.6      产生文件格式

录制完成后,声音文件为8k采样频率、单声道、16bit量化精度的WAV文件。

6.7      容量

本数据库的声音文件容量为405,963,144Byte(未经压缩的语音信号)。

6.8      数据后期处理

n        声音文件的后期处理

l        声音文件的个数与发音文本相匹配;

l        每句声音文件的头、尾都保留一定的静音段。如果发音人操作失误,没有保留静音段,则需要补录该句。

n        文本文件的后期处理

l        校对

Ø        按照发音人真实发音修改文本;

例:“北方股份”读成“南方股份”,文本修改成:“南方股份”。

Ø        如果某句话发音人没有读,将该局文本删掉,保留句子号;

l        标注

Ø        标注工具——Mark tool

Ø        根据真实发音在文本上标注相应的信息(如:背景杂音、背景语音、及由发音人引起的各种语音信息);

Ø        由于发音人抢录或者提前按键而使语音信号受损的,用[]表示;

Ø        如果整个字的语音信号全部没有则用[*]表示;

Ø        由于信号传输的问题而使语音信号受损的用{}表示。

Ø        没有语音信号的句子,把句子内容删去,留下句子号。

Ø        句中重复的字或词如果,需要进行标注,用<R><>

Ø        对于ZzhCchSshrynlining不分的不用进行标注。

Ø        所有标注信息,全部按照寂静区归前原则,也就是标注在标点符号前面。

Ø        信号较小的杂音不进行标注。

Ø        和语音信号重叠的杂音不进行标注。

 

附:具体标注规则:

 

类别

名称

释义

举例

由发音人引起的

模糊语音

发音人语音模糊难辨的、读的不好的。<A></A>

“北方股份”的 “股”字几乎不可分辨

读错语音

发音人读错字的,更改后语义不通的。<B></B>

“北方股份”读成“北huang1股份”则标记为“北<B>{huang1}</B>股份

重复语音

发音人重复的字或词,添加后不能成为一个完整语义的句子。<R></R>

“飞乐股份”读成“飞飞乐股份”

语气语音

发音人发出的、习惯性的、无意义的语气词。<C></C>

嗯,呵,哼及一些难以用汉字表示的声音

呼吸声

录音人口中发出的呼吸声。<D></D>

单纯的呼吸声

咂嘴声

录音人口中发出的咂嘴声。<H></H>

咂嘴声(发音人故意发出的)

其他非语音信号

录音人口中发出的其他非语音信号。<I></I>

笑声、喝水声、喷话筒声等(除呼吸声和咂嘴声以外的声音)

由录音环境造成的

背景语音

非发音人语音被录制到录音文件中的<E></E>

 

背景杂音

录音环境中,人为或非人为因素产生的其它声音,通过microphone拾音后,被录制到录音文件中的。<F></F>

明显的背景杂音,杂音音量至少是语音信号的五分之一(如说话声、开门声、砸东西声等)

电磁杂音

各种非正常电磁干扰信号,通过录音设备放大后,被录制到录音文件中的。<G></G>

明显的信号干扰声(如手机信号引起的共振、汽车经过的时候的电磁声等)

 

7         产品光盘说明

7.1      说明

该产品为主要用于电话自然语音识别的测试和训练,采集的为手机信号。

7.2      产品内容

n        MatadataTable:存放该产品的相关信息。包括:发音文本及发音人信息等内容。

n        StockMobile Telephone265):存放该产品的所有声音文件。

7.3      产品容量

该产品总容量为:387MB