电话语音识别语音库——数字串
(座机285人)
(1) 资源简述
该语音库采用8k采样频率、16bit量化精度、单声道信道录制,其中包括具有不同口音、年龄和文化层次285名发音人;录音数据采用座机及座机免提录入,其中座机免提有29人数据。语音库主要用于电话自然语音识别的测试和训练。
(2) 标注规范
n
声音文件要和文本文件一一对应。
n
由于发音人抢录或者提前按键而使语音信号受损的,用[字]表示。
n
如果整个字的语音信号全部没有则用[*字]表示。
n
由于信号传输的问题而使语音信号受损的用{字}表示。
n
没有语音信号的句子,把句子内容删去,留下句子号。
n
按照真实发音修改文本,‘12 456’读成了‘12 546’,文本要按照真实发音把‘12 456’改为‘12 546’。
n
对发音的要求:0、1、6、7正确读音为ling2、yi1、liu4、qi1。
例如:‘1’读为‘yao1’,需要标注为:<B>1{yao1:yi1}</B>
‘32 168’读成‘三十二 一百六十八’,则需要将文本中‘32 168’改成‘三十二 一百六十八’
数据标注:
n
标注工具——Mark_tool
工具说明:根据真实发音在文本上标注相应的信息(如:背景杂音、背景语音、及由发音人引起的各种语音信息)。
n
标注注意事项:
l 信号较小的杂音不进行标注。
l 和语音信号重叠的杂音不进行标注。
n
标注信息列表如下:
类别 |
名称 |
释义 |
举例 |
由发音人引起的 |
模糊语音 |
发音人语音模糊难辨的、读的不好的。<A></A> |
“12 456”的 “5”字几乎不可分辨 |
读错语音 |
发音人读错字的,更改后语义不通的。<B></B> |
“1”读成“yao1”需标注为<B>1{yao1:yi1}</B> |
|
重复语音 |
发音人重复的字或词,添加后不能成为一个完整语义的句子。<R></R> |
“11 253”读成“11
2553” |
|
语气语音 |
发音人发出的、习惯性的、无意义的语气词。<C></C> |
嗯,呵,哼…及一些难以用汉字表示的声音 |
|
呼吸声 |
录音人口中发出的呼吸声。<D></D> |
单纯的呼吸声 |
|
咂嘴声 |
录音人口中发出的咂嘴声。<H></H> |
咂嘴声(发音人故意发出的) |
|
其他非语音信号 |
录音人口中发出的其他非语音信号。<I></I> |
笑声、喝水声、喷话筒声等(除呼吸声和咂嘴声以外的声音) |
|
由录音环境造成的 |
背景语音 |
非发音人语音被录制到录音文件中的<E></E> |
|
背景杂音 |
录音环境中,人为或非人为因素产生的其它声音,通过microphone拾音后,被录制到录音文件中的。<F></F> |
明显的背景杂音,杂音音量至少是语音信号的五分之一(如说话声、开门声、砸东西声等) |
|
电磁杂音 |
各种非正常电磁干扰信号,通过录音设备放大后,被录制到录音文件中的。<G></G> |
明显的信号干扰声(如手机信号引起的共振、汽车经过的时候的电磁声等) |