TSC973说明
1.TSC973电话语料库简介
TSC973电话语料库是国家973计划支持项目,由中国科学院自动化研究所(承担语音数据采集工作)和中国社会科学院语言研究所(承担文本转写和语音学标注工作)合作完成。
TSC973由真实环境下收集的酒店订房电话(对话)语音数据、文字转写和多层语音学标注组成。共有10个对话单元(分为93个声音文件),规模约120MB。语音信息采用电话录音通道采集,以8000赫兹,16位,单声道WAV格式存储,文字内容和语音学标注完全由人工手工完成,准确度高。标注信息丰富,共有7层,包括音节、声韵母、副语言学、发音人信息、句式、韵律单元、重音等内容(部分噪音较大的声音未作标注,实际标注文件共83个)。
TSC973主要针对口语(音段、韵律等)研究、语音(识别)工程等领域,尤其适合电话通讯领域的语音学研究。
更多信息请参考TSC973概述文件(..\DOC\OVERVIEW.doc)
2.目录结构
TSC973电话语料库的目录结构和说明如下:
1) ..\DATAANNO
声音数据和标注数据(部分声音数据因为噪音较大,未作标注)。
关于声音和标注数据的详细说明,请参考TSC973录音规范(..\METADATA\ SPECREC.DOC)和标注规范(..\METADATA\ SPECANNO.DOC)。
2) ..\DOC
项目说明文档目录,其中有2个MICROSOFT WORD格式文件,分别为:
README.DOC ——即本文件,主要介绍TSC973的组成和各部分目录结构
OVERVIEW.DOC——TSC973项目概述文件。
3) ..\TOOLS
TSC973所用的一些工具软件。
TSC973标注文件可用语音学软件praat实时显示,该软件网址:http://www.fon.hum.uva.nl/praat/
4) ..\METADATA
TSC973规范说明目录,其中包含2个MICROSOFT WORD格式文件,分别为:
SPECANNO.DOC ——介绍TSC973的语音学标注规范。
SPECREC.DOC——介绍TSC973的录音和存储规范。
5) ..\TXT
TSC973的文本转写。
3.联系方法
更多信息请联系中国社会科学院语言研究所语音研究室
地址:中华人民共和国北京市东城区建国门内大街5号中国社会科学院语言研究所语音研究室
邮政编码:100732
联系电话:(010)81595394
(010)65237408
网址:http://www.cass.net.cn/chinese/s18_yys/yuyin/index.htm
(版权声明:本语音语料库版权归中国社会科学院语言研究所语音研究室和中国科学院自动化研究所所有。)