前言

在对汉语中的各种韵律进行分析的过程中，由于各种影响因素组合在一起，使不同的因素对韵律的影响难以精确的进行分析。作为韵律分析的物质基础，建立设计合理、高质量录音的语料库有着极为重要的研究价值和实用价值。本语料库主要针对自然广播语流而制作的，是由中国科学院计算技术研究所完成。该语料库可以用于进行连续语流的韵律分析和研究。根据研究和开发的需要，本文简要介绍本语料库的设计与使用。

语料库的内容

本语料库由句子和篇章两部分组成，每一部分都包括文本和语音数据。本语料库分别制作了4个播音员（男女声各2人）的新闻播音语料，以广播语气为主，包括陈述、疑问、感叹、祈使等语气。

本语料库包含了以下类型的语句：

用于分析音节在不同韵律位置时长变化的语句、

用于研究音节在不同重音状态下时长变化的语句、

用于研究音节在不同重音状态下基频变化的语句、

用于研究韵律词在句中不同位置时长和基频变化的语句、

用于研究音节在篇章中受各种因素影响时时间和基频变化的篇章、

用于研究音节在不同的语调下（疑问、感叹）的时长和基频变化的语句。

语料文本的设计方法

由于本语料库是用于自然广播语流韵律分析，因此语料应该来自客观真实的播音材料。在制作过程中，参考了国内外先进的相关语料库的制作，以中央人民广播电台录制的2002—2003年的广播材料为语料来源，从中选取了约16万字的语句，16万字的篇章，语料库能够满足进行汉语连续语流韵律分析的要求，并且可以作为其他连续语音研究的参考语料。

由于广播材料中以陈述语气为主，为了满足设计要求，从2002—2003年的人民日报和互联网上选取了一定量的包含疑问、感叹、祈使等语气的文本。

语音数据的录制

在实际制作中，我们先对中央人民广播电台2002—2003年的“新闻和报纸摘要节目”、“全国新闻联播”等节目的播音数据光盘进行听音，记录下文本，从中选取符合要求的句子和片段，然后用语音切割软件获得相应的语音数据。

对于包含疑问、感叹、祈使等语气的文本，则分别由相应的广播员进行录制。

语料库的命名格式和使用

1、目录结构

语句（包括语音文件和文本文件）

格式为：播音员姓名

语音文件

篇章

文本文件

2、文件命名方式

（1）语句

文本文件：SenIndex_播音员代号.txt ，同一个播音员的文本数据放在一个索引文件中，如LH的所有语句的文本在SenIndex_LH.txt中；

语音文件：S_播音员代号_序号.wav ，一条语句的语音数据是一个波形文件，如LH的第一条语句的语音数据为S_LH_0000.wav。

（2）篇章

文本文件：D_播音员代号_序号.txt ，每个播音员的每个篇章的文本数据都是一个文本文件，如LH的第一个篇章的文本在文件D_LH_000.txt中；

语音文件：D_播音员代号_序号.wav ，每个播音员的每个篇章的语音数据都是一个波形文件，如LH的第一个篇章的语音在文件D_LH_000.wav中。