天气预报广播语音库语料库标注规范
1、本数据库包括十六天的中央电视台的天气预报语料数据;每天的语料又分为早间、中午、傍晚和午夜四个时段的天气预报语音数据。 数据来源是通过采集电视语音信号,经过麦克风转录后得到的数据。
2、语音数据为标准播音员播音,有男生,也有女生,有严重的背景音乐噪声。
3、语料数据内容:
数据共58个语音文件,数据规模约350M。
4、数据存放的目录结构
语音文件夹(.\mar_mic)
脚本文件夹(.\transcripts)
5、文件命名方式
文本文件:文件名以mar开头,同一天数据有相同的索引,后面接表示早间、中午、傍晚和午夜四个时段的标记。Info表示早间,noon表示午间,nig1表示傍晚,nig2表示午夜。如:mar_01_info.txt为第一天早间天气预报文本文件,mar_01_noon.txt为第一天午间天气预报文本文件。
语音文件:语音文件的命名方式和文本文件相同,文件后缀名为.wav 。如:mar_01_info.wav为第一天早间天气预报语音文件,mar_01_noon.wav为第一天午间天气预报语音文件。
6、波形文件的参数: 采样率为16K Hz, 16比特,
单声道