天气预报广播语音库语料库标注规范

 

1、本数据库包括十六天的中央电视台的天气预报语料数据;每天的语料又分为早间、中午、傍晚和午夜四个时段的天气预报语音数据。 数据来源是通过采集电视语音信号,经过麦克风转录后得到的数据。

2、语音数据为标准播音员播音,有男生,也有女生,有严重的背景音乐噪声。

3、语料数据内容:

数据共58个语音文件,数据规模约350M

4、数据存放的目录结构

语音文件夹(.\mar_mic)

 脚本文件夹(.\transcripts)

                                                                                                                                                                                                                  

5、文件命名方式

文本文件:文件名以mar开头,同一天数据有相同的索引,后面接表示早间、中午、傍晚和午夜四个时段的标记。Info表示早间,noon表示午间,nig1表示傍晚,nig2表示午夜。如:mar_01_info.txt为第一天早间天气预报文本文件,mar_01_noon.txt为第一天午间天气预报文本文件。

语音文件语音文件的命名方式和文本文件相同,文件后缀名为.wav 。如:mar_01_info.wav为第一天早间天气预报语音文件,mar_01_noon.wav为第一天午间天气预报语音文件。

 

6、波形文件的参数:   采样率为16K Hz, 16比特, 单声道