自然广播语流语料库技术报告

 

 

中国科学院计算技术研究所

 

数字化技术研究室

 

 

 

前言

在对汉语中的各种韵律进行分析的过程中,由于各种影响因素组合在一起,使不同的因素对韵律的影响难以精确的进行分析。作为韵律分析的物质基础,建立设计合理、高质量录音的语料库有着极为重要的研究价值和实用价值。本语料库主要针对自然广播语流而制作的,是由中国科学院计算技术研究所完成。该语料库可以用于进行连续语流的韵律分析和研究。根据研究和开发的需要,本文简要介绍本语料库的设计与使用。

 

语料库的内容

本语料库由句子和篇章两部分组成,每一部分都包括文本和语音数据。本语料库分别制作了4个播音员(男女声各2人)的新闻播音语料,以广播语气为主,包括陈述、疑问、感叹、祈使等语气。

    本语料库包含了以下类型的语句:

用于分析音节在不同韵律位置时长变化的语句、

用于研究音节在不同重音状态下时长变化的语句、

用于研究音节在不同重音状态下基频变化的语句、

用于研究韵律词在句中不同位置时长和基频变化的语句、

用于研究音节在篇章中受各种因素影响时时间和基频变化的篇章、

用于研究音节在不同的语调下(疑问、感叹)的时长和基频变化的语句。

语料文本的设计方法

由于本语料库是用于自然广播语流韵律分析,因此语料应该来自客观真实的播音材料。在制作过程中,参考了国内外先进的相关语料库的制作,以中央人民广播电台录制的2002—2003年的广播材料为语料来源,从中选取了约16万字的语句,16万字的篇章,语料库能够满足进行汉语连续语流韵律分析的要求,并且可以作为其他连续语音研究的参考语料。

由于广播材料中以陈述语气为主,为了满足设计要求,从2002—2003年的人民日报和互联网上选取了一定量的包含疑问、感叹、祈使等语气的文本。

语音数据的录制

在实际制作中,我们先对中央人民广播电台2002—2003年的“新闻和报纸摘要节目”、“全国新闻联播”等节目的播音数据光盘进行听音,记录下文本,从中选取符合要求的句子和片段,然后用语音切割软件获得相应的语音数据。

对于包含疑问、感叹、祈使等语气的文本,则分别由相应的广播员进行录制。

 

语料库的命名格式和使用

1目录结构

 

 

 

 

 

 

                               语句(包括语音文件和文本文件)

 

格式为: 播音员姓名

                                                                                   

                                           语音文件

                               篇章

                                                                                                                                     

                                                   文本文件

 

2、文件命名方式

(1)       语句

文本文件SenIndex_播音员代号.txt ,同一个播音员的文本数据放在一个索引文件中,如LH的所有语句的文本在SenIndex_LH.txt中;

语音文件S_播音员代号_序号.wav ,一条语句的语音数据是一个波形文件,如LH的第一条语句的语音数据为S_LH_0000.wav。

(2)       篇章

文本文件D_播音员代号_序号.txt ,每个播音员的每个篇章的文本数据都是一个文本文件,如LH的第一个篇章的文本在文件D_LH_000.txt中;

语音文件D_播音员代号_序号.wav ,每个播音员的每个篇章的语音数据都是一个波形文件,如LH的第一个篇章的语音在文件D_LH_000.wav中。