电话语音识别语音库——数字串

(座机285人)

 

(1) 资源简述

该语音库采用8k采样频率、16bit量化精度、单声道信道录制,其中包括具有不同口音、年龄和文化层次285名发音人;录音数据采用座机及座机免提录入,其中座机免提有29人数据。语音库主要用于电话自然语音识别的测试和训练。

(2) 标注规范

n         声音文件要和文本文件一一对应。

n         由于发音人抢录或者提前按键而使语音信号受损的,用[]表示。

n         如果整个字的语音信号全部没有则用[*]表示。

n         由于信号传输的问题而使语音信号受损的用{}表示。

n         没有语音信号的句子,把句子内容删去,留下句子号。

n         按照真实发音修改文本,‘12 456’读成了‘12 546’,文本要按照真实发音把‘12 456’改为‘12 546’。

n         对发音的要求:0167正确读音为ling2yi1liu4qi1

例如:‘1’读为‘yao1’,需要标注为:<B>1{yao1yi1}</B>

32 168’读成‘三十二 一百六十八’,则需要将文本中‘32 168’改成‘三十二 一百六十八’

数据标注:

n         标注工具——Mark_tool

工具说明:根据真实发音在文本上标注相应的信息(如:背景杂音、背景语音、及由发音人引起的各种语音信息)。

n         标注注意事项:

l         信号较小的杂音不进行标注。

l         和语音信号重叠的杂音不进行标注。

n         标注信息列表如下:

类别

名称

释义

举例

由发音人引起的

模糊语音

发音人语音模糊难辨的、读的不好的。<A></A>

12 456”的 5”字几乎不可分辨

读错语音

发音人读错字的,更改后语义不通的。<B></B>

1”读成“yao1”需标注为<B>1{yao1yi1}</B>

重复语音

发音人重复的字或词,添加后不能成为一个完整语义的句子。<R></R>

11 253”读成“11 2553

语气语音

发音人发出的、习惯性的、无意义的语气词。<C></C>

嗯,呵,哼及一些难以用汉字表示的声音

呼吸声

录音人口中发出的呼吸声。<D></D>

单纯的呼吸声

咂嘴声

录音人口中发出的咂嘴声。<H></H>

咂嘴声(发音人故意发出的)

其他非语音信号

录音人口中发出的其他非语音信号。<I></I>

笑声、喝水声、喷话筒声等(除呼吸声和咂嘴声以外的声音)

由录音环境造成的

背景语音

非发音人语音被录制到录音文件中的<E></E>

 

背景杂音

录音环境中,人为或非人为因素产生的其它声音,通过microphone拾音后,被录制到录音文件中的。<F></F>

明显的背景杂音,杂音音量至少是语音信号的五分之一(如说话声、开门声、砸东西声等)

电磁杂音

各种非正常电磁干扰信号,通过录音设备放大后,被录制到录音文件中的。<G></G>

明显的信号干扰声(如手机信号引起的共振、汽车经过的时候的电磁声等)

 

*