电话语音识别语音库—

电话语音识别语音库——股票

（手机265人）

（1） 资源简述

该语音库采用8k采样频率、16bit量化精度、单声道信道录制，其中包括具有不同口音、年龄和文化层次265个发音人；录音数据采用手机录入方式。语音库主要用于电话自然语音识别的测试和训练。

（2） 标注规范

数据校对规则：

n 声音文件要和文本文件一一对应。

n 由于发音人抢录或者提前按键而使语音信号受损的，用[字]表示。

n 如果整个字的语音信号全部没有则用[*字]表示。

n 由于信号传输的问题而使语音信号受损的用{字}表示。

n 没有语音信号的句子，把句子内容删去，留下句子号。

n 按照真实发音修改文本，‘北方股份’读成了‘南方股份’，文本要按照真实发音把‘北方股份’改为‘南方股份’。

n 语句文本中数字使用中文状态书写。

数据标注：

n 标注工具——Mark_tool

工具说明：根据真实发音在文本上标注相应的信息（如：背景杂音、背景语音、及由发音人引起的各种语音信息）。

n 标注注意事项：

l 信号较小的杂音不进行标注。

l 和语音信号重叠的杂音不进行标注。

n 标注信息列表如下：

类别	名称	释义	举例
由发音人引起的	模糊语音	发音人语音模糊难辨的、读的不好的。<A></A>	“北方股份”的 “股”字几乎不可分辨
	读错语音	发音人读错字的，更改后语义不通的。<B></B>	“北方股份”读成“北huang1股份”则标记为“北<B>{方huang1}</B>股份”
	重复语音	发音人重复的字或词，添加后不能成为一个完整语义的句子。<R></R>	“飞乐股份”读成“飞飞乐股份”
	语气语音	发音人发出的、习惯性的、无意义的语气词。<C></C>	嗯，呵，哼…及一些难以用汉字表示的声音
	呼吸声	录音人口中发出的呼吸声。<D></D>	单纯的呼吸声
	咂嘴声	录音人口中发出的咂嘴声。<H></H>	咂嘴声(发音人故意发出的)
	其他非语音信号	录音人口中发出的其他非语音信号。<I></I>	笑声、喝水声、喷话筒声等（除呼吸声和咂嘴声以外的声音）
由录音环境造成的	背景语音	非发音人语音被录制到录音文件中的<E></E>
	背景杂音	录音环境中，人为或非人为因素产生的其它声音，通过microphone拾音后，被录制到录音文件中的。<F></F>	明显的背景杂音，杂音音量至少是语音信号的五分之一（如说话声、开门声、砸东西声等）
	电磁杂音	各种非正常电磁干扰信号，通过录音设备放大后，被录制到录音文件中的。<G></G>	明显的信号干扰声（如手机信号引起的共振、汽车经过的时候的电磁声等）