电话语音识别语音库——股票
(手机265人)
(1) 资源简述
该语音库采用8k采样频率、16bit量化精度、单声道信道录制,其中包括具有不同口音、年龄和文化层次265个发音人;录音数据采用手机录入方式。语音库主要用于电话自然语音识别的测试和训练。
(2) 标注规范
数据校对规则:
n
声音文件要和文本文件一一对应。
n
由于发音人抢录或者提前按键而使语音信号受损的,用[字]表示。
n
如果整个字的语音信号全部没有则用[*字]表示。
n
由于信号传输的问题而使语音信号受损的用{字}表示。
n
没有语音信号的句子,把句子内容删去,留下句子号。
n
按照真实发音修改文本,‘北方股份’读成了‘南方股份’,文本要按照真实发音把‘北方股份’改为‘南方股份’。
n
语句文本中数字使用中文状态书写。
数据标注:
n
标注工具——Mark_tool
工具说明:根据真实发音在文本上标注相应的信息(如:背景杂音、背景语音、及由发音人引起的各种语音信息)。
n
标注注意事项:
l 信号较小的杂音不进行标注。
l 和语音信号重叠的杂音不进行标注。
n
标注信息列表如下:
类别 |
名称 |
释义 |
举例 |
由发音人引起的 |
模糊语音 |
发音人语音模糊难辨的、读的不好的。<A></A> |
“北方股份”的 “股”字几乎不可分辨 |
读错语音 |
发音人读错字的,更改后语义不通的。<B></B> |
“北方股份”读成“北huang1股份”则标记为“北<B>{方huang1}</B>股份” |
|
重复语音 |
发音人重复的字或词,添加后不能成为一个完整语义的句子。<R></R> |
“飞乐股份”读成“飞飞乐股份” |
|
语气语音 |
发音人发出的、习惯性的、无意义的语气词。<C></C> |
嗯,呵,哼…及一些难以用汉字表示的声音 |
|
呼吸声 |
录音人口中发出的呼吸声。<D></D> |
单纯的呼吸声 |
|
咂嘴声 |
录音人口中发出的咂嘴声。<H></H> |
咂嘴声(发音人故意发出的) |
|
其他非语音信号 |
录音人口中发出的其他非语音信号。<I></I> |
笑声、喝水声、喷话筒声等(除呼吸声和咂嘴声以外的声音) |
|
由录音环境造成的 |
背景语音 |
非发音人语音被录制到录音文件中的<E></E> |
|
背景杂音 |
录音环境中,人为或非人为因素产生的其它声音,通过microphone拾音后,被录制到录音文件中的。<F></F> |
明显的背景杂音,杂音音量至少是语音信号的五分之一(如说话声、开门声、砸东西声等) |
|
电磁杂音 |
各种非正常电磁干扰信号,通过录音设备放大后,被录制到录音文件中的。<G></G> |
明显的信号干扰声(如手机信号引起的共振、汽车经过的时候的电磁声等) |