CASIA单音节孤立词语音库技术文档

 

1  背景

1996年,中科院自动化研究所设计和录制了863语音识别数据库,该数据库以朗读语体为主,考虑了语音的音段平衡,提供了一个较好的用于语音识别和测试的数据集。但是,随着语音识别技术的不断发展,原有的基于朗读语音制作的数据库已不能满足语音识别的需要,而建设一个口音、口语化及复杂背景条件下的语音库就显得越来越重要。在这样的实际要求下,中科院自动化多开始着手建设新的单音节孤立词语音语料库,力求突出口语化语速较快的特点,加大语料覆盖范围,以建立更加适合语音识别需求的高质量的语音数据库。本文将详细介绍该语音库的设计和制作过程。

 

2  要求

汉语语音识别用语料库,要反映口语化、轻微口音对朗读式语音可能产生的影响。要求参加录音的人数要多,参加录音的人可略带口音但发音必须能将普通话的一千二百多个实用的音节区分开。另外,要求录音的环境要与语音识别系统实际使用时的情况尽可能相一致,即在比较安静的机房或办公室的条件下录音。

 

3  基本原则

语音库的制作和分发应该是一个系统工程,每一步都应该遵从特定的规范。我们应该在语料库的制作中尽量使用一些国际上通用的规范,以便汉语语音库在国内外分发和共享。

 

4. 字表

针对上面所述的要求,我们建立了一个适用于语音识别研究的汉语单音节孤立词语音库。该语音库的字表内容包括两大部分,一部分是单音节,另一部分是短语和句子。

①.单音节子库:汉语普通话包括轻音在内一共有五种声调。根据《现代汉语词典》统计,共有1333个不同的音节。为了音素平衡,有些音节在子库中出现的次数比其它音节多。子库将所有音节划分成10组,每组包括140个音节。每人念其中1组,每组都均衡地包括所有音素。

②.连接语音子库:连接语音子库主要考虑音节组成短语和句子时的协同发音及声调和语调的变化。该子库又划分为2组。第1组是由2到7个字的词组成。这些词语包括了汉语语音中的所有音素。第2组是由10-15个字左右的句子组成的,主要来源是文学、新闻方面的文章。

 

5  录音人介绍

参加录音的共有101人,包括中科院自动化研究所及其他单位的学生和职工。其中男性40人,女性61人。年龄分布如下:

 

年龄

人数

年龄

人数

20-25

31

25-30

33

31-35

18

35-40

13

40-50

4

50以上

2

录音人的籍贯包括北京、天津、上海、山东、四川、浙江、河南、陕西、山西、河北、辽宁、,内蒙古、江西、福建、湖北、湖南、江苏、广东、广西、云南等,基本覆盖了我国大部分省、直辖市。录音时要求发音人发音尽量自然,按照他们平时发音的习惯去念每一个音节、短语和句子。

 

6.应用与特点:

本文介绍的汉语语音库能够应用于非特定人全音节、连接短语和连续语音识别方法的研究,建立基于该语音库的语音识别系统,也可用于非特定人语音识别系统的评估。

该汉语语音库具有以下特点:

1.录音是在比较安静的房间内进行的,符合语音识别系统使用时的条件。

2.参加录音的人包括男性和女性,可混合在一起建立语音识别概率统计模型,也可分别建立男性和女性的模型。

3.参加录音的人之籍贯分布较广,发音时允许带有轻微的口音,可选择不同籍贯的人的录音,通过说话人自适应技术建立适于该地口音的自适应模型以达到提高识别率的目的。

4.参加录音的人要求发音自然,这就使所得录音自然包括各种发音方式,使建立的语音识别概率统计模型适应面更宽。