录音回放说话人身份认证语音数据库

 

本库的开发主要是为精确说话人识别认证技术、说话人系统录音回放攻击检测以及录音设备的源识别提供研究和开发实际系统所需的数据库。

随着现代信息技术的不断发展,人们对安全问题越来越关注。基于生物特征的安全认证在安全系统中扮演着非常重要的角色,它利用人体的各种生理(指纹、虹膜、声纹、掌纹、人脸等)和行为特征(步态、签字、击键特征等)对用户进行身份认证,理论分析和实际应用都表明该认证方式比传统密码学认证具有更高的安全性和方便性。而声纹身份认证则在生物认证技术中占有非常重要的地位,它是远程身份认证的首选,对于利用电话通信系统进行身份认证,语音是唯一可选的生物特征。另外,与其它生物认证技术相比,声纹认证技术具有其独特的优势:(l)语音获取方便、自然,声纹提取可在不知不觉中完成,因此使用者的接受程度也高;(2)获取语音的设备成本低廉,使用简单,一个麦克风即可,在使用通讯设备时更无需额外的录音设备;(3)适合远程身份确认,只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网)实现远程登录;(4)说话人辨认和确认的算法复杂度低;(5)配合一些其他措施,如通过语音识别进行内容鉴别等,可以提高准确率。因此,说话人识别系统得到了非常广泛的应用,例如:司法取证、电子商务、金融系统等。然而,实际的应用中则需要进行精确的说话人识别和认证,但是对于精确的说话人识别技术则对数据库有着较高的要求,因此急需建立相应的数据库。

同时, 说话人识别系统在实际应用时也面临着一些紧迫的安全问题。其中最易实施也最易得手的一种攻击是录音回放攻击,录音回放攻击是指攻击者采用高保真的录音设备录制某合法用户进入认证系统时的语音,或通过其它各种手段获得用户的语音样本,然后将其在声纹身份认证系统的拾音器端通过高保真的功放来进行回放,从而达到对声纹身份认证系统实施攻击的目的。采用高保真录音设备偷录的语音是真实来自于用户本人,用偷录的语音来实施回放攻击,这对于说话人识别系统来说是一个很大的威胁。一方面由于高性能的高保真录音和回放设备种类日益增多,而且价格也越来越便宜,获得实施录音回放设备的成本低廉;另一方面,这类设备的体积越来越小,实施偷录更为隐蔽可行。因此传感器端的录音回放攻击和信道回放攻击的实施也越来越容易,为不断发展的声纹身份认证应用留下了非常严重的安全隐患。随着声纹身份认证系统的不断推广应用,防传感器端录音回放攻击方法的研究也变得越来越迫切了。但目前并没有为录音回放攻击研究所建立的专门数据库,因此建立录音回放库对于提高声纹身份认证系统的安全性有着非常重要的意义。

另一方面,设备源识别是数字多媒体取证技术中非常重要的组成部分。设备源识别可对多媒体的来源、真实性和可靠性进行验证。现有的设备源识别技术主要集中在数字图像的设备源识别领域,例如相机、打印机和扫描仪等的源识别已经取得很多重要的成果。对录音设备源的识别研究却非常少,然而录音设备源识别却是数字多媒体取证技术中非常重要的部分。录音设备源识别的目标是直接由已获取的语音信号找到其中所隐含的录音设备信息,从而进行录音设备源的识别,这种技术属于音频取证技术。大多数情况下,不可能在产生数字音频的同时就在数字音频中嵌入水印等隐秘信息,因此录音设备源取证更符合实际情况,并具有更好的实用价值。录音设备源识别有多个方面的应用,例如:司法取证方面,录音设备源识别可以验证数字音频证据来源的可靠性和真实性;知识产权保护方面,录音设备源识别可以协助打击盗版保护知识产权;录音设备源识别也可以验证数字音频的真实性,如果一段音频中包含多个录音设备的信息或者所包含的录音设备信息出现不连续性,那么说明这段音频是经过后期加工和编辑,并不是真实的音频信号;说话人识别和语音识别技术中一个非常重要的问题就是训练和识别时的信道不匹配问题,录音设备源识别可以用来检测训练和识别时的信道设备信息,建立不同录音设备之间的映射函数,进而可以进行设备参数的自适应以提高最后的识别率。但目前并没有专门的数据库,因此建立多录音设备的数据库对于多媒体取证技术也是非常重要的。

 

1   建立该语音库的目的

1)建库目的:本库的开发主要是为精确说话人识别认证技术、说话人系统录音回放攻击检测以及录音设备的源识别提供研究和开发实际系统所需的数据库。

2)数据库分为三个子库:说话人库;录音回放库;多录音设备库(如图1所示)。

3)建库思路:本库在说人库的基础上扩展多个录音设备建成多录音设备库,并将所录的语音进行回放,扩展成录音回放库。

                          1  数据库结构图

 

2        语音语料库的需求分析

1)针对的研究问题:精确的说话人识别技术;说话人识别系统中录音回放攻击的检测;多录音设备的源识别技术。

2)需处理的问题:精确说话人识别问题;录音回放攻击检测问题;多录音设备的源识别问题。

3)数据库设计思路:以说话人库为基础,扩展相应的子库。例如:回放库、多信道库等。

4)说话人库分析:多为指令式的句子,句子长度约为2~10秒左右。所设计的数据库最终是以句子为基本单元。

5)对各个子库的分析:由于语音回放是在说话人识别系统中的特例,因此回放语音库的制定要符合说话人识别语音库的一些基本准则;回放识别的时候为避免特定设备的影响,需采用多设备进行语音录制,利用此种做法亦可设计一个多种信道库;设计多种信道库时,为避免特定人的影响,会采用多人录音,这也是对说话人库的一个补充。所以三个子库在分布空间上是相互交叠,并且处于互补状态。

6)录音环境:所有的录音都在安静的办公室和实验室环境下录制。

7)避免的影响:避免特定人的影响,因此要求做多人的录音(针对设备层面而言);避免特定设备的影响,要求做多设备的回放(针对录音回放问题而言,另一方面也是对录音识别源识别的要求);避免文本的影响,多语言现象分布,采用中文的句子,一部分语料从多个权威的数据库中抽取,另一部分则从抽取的数据库以外收集音素和韵律分布平稳的语料。

 

3       数据库录音过程

1)录音设备:SOMIC V2 麦克风、C-100麦克风、SONY麦克风、三星麦克风、Sennheiser麦克风、索尼ICD-PX820录音笔、三星YV-120录音笔、DELL台式电脑、创新5.1独立声卡(PIC)、奥特蓝星功放。

2)录音环境:所有的录音都在安静的办公室和实验室环境下录制。

3)录音间隔:总录音时间为半年,每周录一次音,一次录制4-6个人,录音人员在录音前都接受了正式的培训,每人录音2-3次。

4)录音是采用两种录音设备同时录制,一种用电脑直接进行录制;一种用录音笔等其他设备进行录制(设置为高保真、高精度),模仿偷录的过程;然后再将录音笔录制的语音进行回放,回放又分为直接回放和通过功放回放两类;接着再通过麦克风用电脑进行录制。电脑使用的录制编辑软件为Cooledit,实际过程如下图2所示。

5)录音设备采样率设置:正常录音设置为16bit16kHZ的采样率;录音笔录制时设置为16bit22.05Khz(三星)44.1kHZ(索尼)的采样率;录音笔回放转录时均设置为16bit16kHZ的采样率。

 

                          2  数据库录制方式示意图

 

4       数据库语料内容

考虑到不同的文本类型,语料库包含以下四个部分:

·   数据库的每次录音包括20个孤立词短语;

·   每个包含10个数字的连续数字串10个;

·   60个音素和韵律分布平稳的句子

·   2篇苏轼的诗词以平常的语速进行朗读。

 

1)孤立词(W)

开门、关门、密码、名字、重新、输入、稍等、你好、欢迎、请进、我是、对不起、错误、谢谢、确认、修改、光临、指纹、说出、口令

 

2)数字串(D)

采用随机数表生成10个长度为10位的数字

1.         3204485762

2.         1049791530

3.         6463851293

4.         5940247874

5.         2108597334

6.         9511827585

7.         3872941256

8.         2698374931

9.         1573463812

10.     3591864827

 

3)句子(S)

1.         下半场开始仅五分钟

2.         为受害者伸张了正义

3.         基本不再增加新的会员

4.         去年香港对外出口贸易呈双位数增长

5.         总面积五点六三平方公里

6.         最后才能挂牌营业

7.         在美国总统抵达欧洲前夕

8.         法国政要纷纷发表讲话

9.         忠厚而毫无虚饰的言谈

10.     给我留下了极其深刻的印象

11.     南疆人民祖祖辈辈为水而苦恼

12.     他们盼望这种状况早日终了

13.     把流通资金投向外汇市场

14.     其价值是无可估量的

15.     独立后又多次访华

16.     是中国人民熟识的老朋友

17.     江泽民对王鼎昌访华表示热烈欢迎

18.     可以说我们是老朋友了

19.     南端离城区仅三公里

20.     十年来累计经营总额十二亿元

21.     莎翁的戏剧突破了悲剧和喜剧的界限

22.     地铁等交通工具非常的发达

23.     却带来一个更大的危险

24.     真正面对灾难的时候

25.     根本就无法逃避

26.     参加少年宫的舞蹈组

27.     比我爸爸妈妈那个年代幸福很多

28.     在计算机的系统里面

29.     教会学生如何运用这个软件

30.     并不是一件容易的事情

31.     经过十一个小时的飞行

32.     先期抵达的同行告诉我们

33.     这场决战吸引着全世界的注目

34.     这是违背奥林匹克精神的

35.     我们中国人有自己的传统美德

36.     它将使更多的人们了解到

37.     有先进的科学技术和经营管理经验

38.     对各自的发展都有好处

39.     正抓紧进行金融体制改革

40.     将造成小麦大幅度减产

41.     泰中关系不会受到影响

42.     为申办奥运会做贡献

43.     北京奥运会取得圆满成功

44.     加快基础产业建设步伐

45.     贯穿浙江西南地区

46.     外交部昨晚发表声明

47.     都不会影响中俄贸易关系

48.     打击各种刑事犯罪活动

49.     保障居民正常生活

50.     以保证波黑有能力自卫

51.     官员财产申报制度一度成为讨论热点

52.     金融机构之间也实现了联网

53.     促进社会信用意识的提高

54.     每个国家都有自己的英雄

55.     太阳队的跑轰战术根本无法实现

56.     山西王家岭矿难遇难人数升至十二人

57.     西南气象干旱具有以下几个特点

58.     中国开始实施西部大开发战略

59.     同时还有来自湖北经济学院的专家

60.     预算法的修改一直被多方期待

 

4)诗词(P)

水调歌头

 

丙辰中秋,欢饮达旦,大醉,作此篇,兼怀子由。

明月几时有?把酒问青天。不知天上宫阙,今夕是何年。我欲乘风归去,又恐琼楼玉宇,高处不胜寒。起舞弄清影,何似在人间? 转朱阁,低户,照无眠。不应有恨,何事长向别时圆?人有悲欢离合,月有阴晴圆缺,此事古难全。但愿人长久,千里共婵娟。

 

念奴娇·赤壁怀古

 

大江东去,浪淘尽,千古风流人物。故垒西边,人道是,三国周郎赤壁。乱石穿空,惊涛拍岸,卷起千堆雪。江山如画,一时多少豪杰!            

遥想公瑾当年,小乔初嫁了,雄姿英发。羽扇纶巾,谈笑间,樯橹灰飞烟灭。故国神游,多情应笑我,早生华发,人生如梦,一尊还酹江月。

 

 

 

5       语料分析

   经统计, 本语料库的字频和《现代汉语频率词典》提供的汉字字频基本保持一致, 包含1473个中文汉字, 包含345个不同的音节, 并且包含汉语中所有的60个音素。

6       数据库标注

需要标注的内容:说话人、性别、录音类别(原始、转录或者回放)、录音设备。标注工作主要是对切割后的语音段进行文件名的标注,不需对语音所对应文本进行标注。

标注方式如下所示(详细信息参考标注规范文档):

/<CORPUS>/<SUB>/<INSTRUCTION>_<SEX>_<SPEAKER_ID>_<TIME>_<SESSION>_<SENTENCE_ID>.wav

如下:

     CORPUS: == APSRD (Authentic and Playback Speaker Recognition Database)

     SUB: == original | transformation |playback

 

     INSTRUCTION: == O, T, or P

                 O stands for Original record

                 T stands for Transformation record

                 P stands for Playback record

     SEX: == M | F

     SPEAKER_ID: == The First Letter of the speakersname       

     SESSION: ==1 To 4 sessions

     TIME:== 123, stands for the times of the record from each speaker

     SENTENCE_ID:==The Number of the sentences in each session.

 

标注建议:

其实可以非常容易的批量生成标注TEXT文件,这样也会更正式一些,而且也能使得数据库看上去规模比较大。

 

6  录音者说明

1)录音者年龄分布:20-30岁之间37人,30-35岁之间3

2)性别分布:男21人,女19人

3)教育背景:本科生,在读硕士研究生和博士研究生

4)地区分布:分别来自11个省份(记录地区的分布如表1所示)

                               1 录音人员地区分布

录音人所属   省份

广东

湖南

湖北

河南

陕西

山东

广西

甘肃

山西

浙江

四川

人数

8

 5

 6

 5

2

 2

 3

 2

 3

 2

2