技术文档
天籁数据中心
2006/04/03
汉语普通话电话识别
天籁数据中心
二零零四年三月
主要用于电话自然语音识别的测试和训练
此数据库包括股票6972句,采集的是手机信号。
n
文本为校对并标注后的文本文件,文字以Unicode编码进行编辑。
n
声音文件为:8k采样频率、16bit量化精度、单声道的Windows PCM wav文件。
该数据库共包括265人,为社会人员和在校学生。
女生:131人 男生:134人
选择环境噪音较小的录音场所。
本次录音使用的是Windows 2000操作系统,在系统机器上安装电话录音卡作为录音软件,并把指定电话线接入电话语音卡上,发音人就可以通过手机拨打指定电话进行录音。
n
将指定电话线接入电话录音系统(该系统由来电录音服务器组成)的电话录音卡上;
n
发音人拨打指定电话,电话语音卡在接收到振铃信号摘机,系统开始录音操作;
l
系统开始录音操作后,发音人就会听到话筒中有语音信号:“您好!请录制您的ID号码,按‘#’键确认”;
l
发音人根据系统提示输入给定的四位ID号码,以‘#’键结束;
l
系统提示录制信息文件:“听到‘嘀’声后,请录制您的姓名、年龄、籍贯,录制完成后确认请按‘1’,重录请按‘2’”;
l
根据系统的提示,发音人录制个人信息,个人信息录制完之后再按‘1’确认,也可按‘2’重新录制;
l
录制第N条录音,系统提示:“第N句”;
l
每句话录完之后都按‘1’确认保存,如果本句话读错了,则按‘2’重新录制;
l
重复第5步,直到该发音人所以录音录制完成。
n
将录制完的声音文件导入计算机即可。
录制完成后,声音文件为8k采样频率、单声道、16bit量化精度的WAV文件。
本数据库的声音文件容量为405,963,144Byte(未经压缩的语音信号)。
n
声音文件的后期处理
l
声音文件的个数与发音文本相匹配;
l
每句声音文件的头、尾都保留一定的静音段。如果发音人操作失误,没有保留静音段,则需要补录该句。
n
文本文件的后期处理
l
校对
Ø
按照发音人真实发音修改文本;
例:“北方股份”读成“南方股份”,文本修改成:“南方股份”。
Ø
如果某句话发音人没有读,将该局文本删掉,保留句子号;
l
标注
Ø
标注工具——Mark tool;
Ø
根据真实发音在文本上标注相应的信息(如:背景杂音、背景语音、及由发音人引起的各种语音信息);
Ø
由于发音人抢录或者提前按键而使语音信号受损的,用[字]表示;
Ø
如果整个字的语音信号全部没有则用[*字]表示;
Ø
由于信号传输的问题而使语音信号受损的用{字}表示。
Ø
没有语音信号的句子,把句子内容删去,留下句子号。
Ø
句中重复的字或词如果,需要进行标注,用<R><字>。
Ø
对于Z和zh、C和ch、S和sh、r和y、n和l、in和ing不分的不用进行标注。
Ø
所有标注信息,全部按照寂静区归前原则,也就是标注在标点符号前面。
Ø
信号较小的杂音不进行标注。
Ø
和语音信号重叠的杂音不进行标注。
附:具体标注规则:
类别 |
名称 |
释义 |
举例 |
由发音人引起的 |
模糊语音 |
发音人语音模糊难辨的、读的不好的。<A></A> |
“北方股份”的 “股”字几乎不可分辨 |
读错语音 |
发音人读错字的,更改后语义不通的。<B></B> |
“北方股份”读成“北huang1股份”则标记为“北<B>{方huang1}</B>股份” |
|
重复语音 |
发音人重复的字或词,添加后不能成为一个完整语义的句子。<R></R> |
“飞乐股份”读成“飞飞乐股份” |
|
语气语音 |
发音人发出的、习惯性的、无意义的语气词。<C></C> |
嗯,呵,哼…及一些难以用汉字表示的声音 |
|
呼吸声 |
录音人口中发出的呼吸声。<D></D> |
单纯的呼吸声 |
|
咂嘴声 |
录音人口中发出的咂嘴声。<H></H> |
咂嘴声(发音人故意发出的) |
|
其他非语音信号 |
录音人口中发出的其他非语音信号。<I></I> |
笑声、喝水声、喷话筒声等(除呼吸声和咂嘴声以外的声音) |
|
由录音环境造成的 |
背景语音 |
非发音人语音被录制到录音文件中的<E></E> |
|
背景杂音 |
录音环境中,人为或非人为因素产生的其它声音,通过microphone拾音后,被录制到录音文件中的。<F></F> |
明显的背景杂音,杂音音量至少是语音信号的五分之一(如说话声、开门声、砸东西声等) |
|
电磁杂音 |
各种非正常电磁干扰信号,通过录音设备放大后,被录制到录音文件中的。<G></G> |
明显的信号干扰声(如手机信号引起的共振、汽车经过的时候的电磁声等) |
该产品为主要用于电话自然语音识别的测试和训练,采集的为手机信号。
n
MatadataTable:存放该产品的相关信息。包括:发音文本及发音人信息等内容。
n
Stock(Mobile Telephone265):存放该产品的所有声音文件。
该产品总容量为:387MB