CASIA汉语数字串语音库》建设技术报告

19959

 

1           背景

随着语音识别技术地不断走向实用,作为一个特例,连续数字串识别在很多领域体现出了它强大的适用性,如电话语音拨号,家电语音遥控,身份证号码自动输入,数据校对等。为建立连续数字识别系统,数字串语音库是不可或缺的。本文将介绍整个语音库的语料设计和制作过程。

 

2           建设目标

数字串语音库,要反映口语话连读因素连续数字语音可能产生的影响。因此在语料的设计上,尽量覆盖所有的数字之间的音联关系。同时,对于不同长度的数字串,人名在断句时所采用的策略也不尽相同,因此还有必要考虑串长的影响。

 

3           基本原则

语音库的制作和分发应该是一个系统工程,每一步都应该遵从特定的规范。我们应该在语料库的制作中尽量使用一些国际上通用的规范,以便CASIA汉语数字串语音库在国内外分发和共享。

 

4           汉语语音识别用语料库制作介绍

本节按照上述规范,简单介绍汉语数字串语音库。

 

4.1     发音人规范

55个男声数据,36个女声数据,每人有80个数字串发音人以2030岁为主,说话人普通话口音未加控制,涉及中国多个主要口音区域。

 

4.2     脚本设计规范

所有数字串长从17不等,每个数字出现的次数及其出现在串首、串中和串尾的比例几乎一致。任何两个数字相连出现的次数也一样,包含丰富的协同发音现象

 

4.3     录音设备

CASIA汉语数字串语音库采用桌面录音环境,采用普通PC话筒,配置Sound Bluster 16 Pro声卡。在纯净录音环境采集没有严格控制,大约30dB

 

4.4     语音文件存储格式

CASIA汉语数字串语音库16KHz采样16bit精度,Wave格式存储。

 

4.5     脚本文件存储格式

所有脚本文件的格式为一行汉字一行拼音的格式,示例:

2637239
er4 liu4 san1 qi1 er4 san1 jiu3