天气预报广播语音库语料技术文档

1 背景

进入九十年代以后，语音识别方面的研究进一步升温，连续语音识别技术正趋于成熟，出现了很多实用化方向发展的研究，其中广播电视新闻自动记录的研究就是一个非常富有挑战性的语音识别研究方向。广播语音的识别给大词汇量连续语音的识别带来了新的难题。以往的语音识别技术主要是集中在安静环境下或背景噪音比较小的条件下的语音文件解码问题，而广播语音将很多语音信息与非语音信息揉和在一起，情况比传统的语音识别问题复杂的多。广播电视新闻节目中的天气预报节目是比较常见，而且内容比较固定的节目，其内容较为专业规范，既包含了一些广播语音数据的特定，相对来讲又是特定领域内的语音数据，比较容易进行识别技术的研究，因此，我们采集并整理了一些电视新闻节目中的天气预报数据，永远研究特定领域内的广播语音识别问题。

2 建设目标

采集数据的目标是尽量涵盖电视新闻节目中所有时间段的天气预报节目，以使数据更具有普遍性和通用性。

3 基本原则

语音库的制作和分发应该是一个系统工程，每一步都应该遵从特定的规范。我们应该在语料库的制作中尽量使用一些国际上通用的规范，以便汉语语音库在国内外分发和共享。

4 汉语语音识别用语料库制作介绍

本节按照上述规范，简单介绍汉语语音识别用语料库。

4.1 发音人规范

发音人为中央电视台标准播音员朗读式发音。

4.2 复杂背景规范

天气预报广播语音库语料数据利用电视采集卡采集真实电视新闻语料。

4.3 录音设备

数据通过电视卡采集后，通过自己编写的录音软件转化为单通道的wave语音。

4.4 语音文件存储格式

数据以16KHz采样16bit精度，Wave格式存储。

4.5 脚本文件存储格式

所有脚本文件均为语音的汉字内容。