技术文档
天籁数据中心
2006/04/04
汉语普通话桌面识别
天籁数据中心
二零零五年五月
主要用于桌面自然语音识别的测试和训练
此数据库为短信内容,共16499句。采集的是头戴式抗噪音麦克的信号。
n
文本为校对并标注后的文本文件,文字以Unicode编码进行编辑。
n
声音文件为:22.05k采样频率、16bit量化精度、单声道的Windows PCM wav文件。
该数据库共包括120人,为社会人员和在校学生。
女生:61人 男生:59人
选择环境噪音较小的录音场所。
本次录音使用的是Windows XP操作系统,外接2.0USB声卡,并使用头戴式抗噪麦克风进行录音。
n
正式录音前,先进行监听人员培训,录音规则都掌握好后才可开始录音;
具体操作:
n
将USB外接声卡连接到笔记本电脑上;
n
头戴式麦克连接到USB外接声卡上;
n
将USB外接声卡上的增益调节钮固定在相同位置,保持采集的声音噪音相对固定;
n
话筒应位于发音人嘴角的外测,稍微偏上一些,尽量减少发音人出现喷话筒现象,可以根据发音人的音量不同,适当的调整话筒的远近度。
录制完成后,声音文件为22.05k采样频率、单声道、16bit量化精度的WAV文件。
本数据库的声音文件容量为3,438,319,258Byte(未经压缩的语音信号)。
n
声音文件的后期处理
l
声音文件的个数与发音文本相匹配;
l
每句声音文件的头、尾都保留一定的静音段。如果监听人员操作失误,没有保留静音段,则需要补录该句。
n
文本文件的后期处理
l
校对
Ø
按照发音人真实发音修改文本;
例:“天安门”读成“地安门”,文本修改成:“地安门”。
Ø
如果某句话发音人没有读,将该局文本删掉,保留句子号;
l
标注
Ø
标注工具——Mark tool;
Ø
根据真实发音在文本上标注相应的信息(如:背景杂音、背景语音、及由发音人引起的各种语音信息);
Ø
由于发音人抢录而使语音信号受损的,用[字]表示;
Ø
如果整个字的语音信号全部没有则用[*字]表示;
Ø
由于信号传输的问题而使语音信号受损的用{字}表示。
Ø
没有语音信号的句子,把句子内容删去,留下句子号。
Ø
句中重复的字或词如果,需要进行标注,用<R><字>。
Ø
对于Z和zh、C和ch、S和sh、r和y、n和l、in和ing不分的不用进行标注。
Ø
所有标注信息,全部按照寂静区归前原则,也就是标注在标点符号前面。
Ø
信号较小的杂音不进行标注。
Ø
和语音信号重叠的杂音不进行标注。
附:具体标注规则:
类别 |
名称 |
释义 |
举例 |
由发音人引起的 |
模糊语音 |
发音人语音模糊难辨的、读的不好的。<A></A> |
“天安门”的 “安”字几乎不可分辨 |
读错语音 |
发音人读错字的,更改后语义不通的。<B></B> |
“奥体”读成“奥qi3”则需标注为“奥<B>{体qi3 }</B>” |
|
重复语音 |
发音人重复的字或词,添加后不能成为一个完整语义的句子。<R></R> |
“徐玉芳”读成“徐徐玉芳” |
|
语气语音 |
发音人发出的、习惯性的、无意义的语气词。<C></C> |
嗯,呵,哼…及一些难以用汉字表示的声音 |
|
呼吸声 |
录音人口中发出的呼吸声。<D></D> |
单纯的呼吸声 |
|
咂嘴声 |
录音人口中发出的咂嘴声。<H></H> |
咂嘴声(发音人故意发出的) |
|
其他非语音信号 |
录音人口中发出的其他非语音信号。<I></I> |
笑声、喝水声、喷话筒声等(除呼吸声和咂嘴声以外的声音) |
|
由录音环境造成的 |
背景语音 |
非发音人语音被录制到录音文件中的<E></E> |
|
背景杂音 |
录音环境中,人为或非人为因素产生的其它声音,通过microphone拾音后,被录制到录音文件中的。<F></F> |
明显的背景杂音,杂音音量至少是语音信号的五分之一(如说话声、开门声、砸东西声等) |
|
电磁杂音 |
各种非正常电磁干扰信号,通过录音设备放大后,被录制到录音文件中的。<G></G> |
明显的信号干扰声(如手机信号引起的共振、汽车经过的时候的电磁声等) |
该产品为主要用于桌面自然语音识别的测试和训练,采集的是头戴式抗噪麦克风录音。
n
MatadataTable:存放该产品的相关信息。包括:发音文本及发音人信息等内容。
n
DeskTop Message:存放该产品的所有声音文件。