TSC973概述

(1)   项目名称(中、英文)

TSC973-973电话语料库

TSC973-Telephone Speech Corpus 973

(2)   项目简述

TSC973电话语料库是国家973计划支持项目,由中国科学院自动化研究所(承担语音数据采集工作)和中国社会科学院语言研究所(承担文本转写和语音学标注工作)合作完成。

TSC973由真实环境下收集的酒店订房电话(对话)语音数据、文字转写和多层语音学标注组成。共有10个对话单元(分为93个声音文件),规模约120MB。语音信息采用电话录音通道采集,以8000赫兹,16位,单声道WAV格式存储,文字内容和语音学标注完全由人工手工完成,准确度高。标注信息丰富,共有7层,包括音节、声韵母、副语言学、发音人信息、句式、韵律单元、重音等内容(部分噪音较大的声音未作标注,实际标注文件共83个)。

TSC973主要针对口语(音段、韵律等)研究、语音(识别)工程等领域,尤其适合电话通讯领域的语音学研究。

3)单位名称(中、英文)

中国社会科学院语言所北京建国门内大街5号   中国社会科学院语言所语音研究室

邮政编码:100732

电话:(+86-010-65237408 / 85195394

Phonetics Lab, Institute of Linguistics, Chinese Academy of Social Sciences

5 Jian Guo Men Nei Da Jie, Beijing 100732
CHINA
Phone: +86-10-6523 7408
Fax: +86-10-85195396
E-mail: liaj@cass.org.cn

4)开发时间

2001年至2003年月

5)规模

TSC973由真实环境下收集的酒店订房电话(对话)语音数据、文字转写和多层语音学标注组成。共有10个对话单元(分为93个声音文件),规模约120MB。

语音信息采用电话录音通道采集,以8000赫兹,16位,单声道WAV格式存储。

文字内容和语音学标注完全由人工手工完成,准确度高。标注信息丰富,共有7层,包括音节、声韵母、副语言学、发音人信息、句式、韵律单元、重音等内容(部分噪音较大的声音未作标注,实际标注文件共83个)。

6)定价

[见价格表]

7)相关技术文档(见METADATA目录)

TSC973标注规范》

TSC973录音和存储规范》

8)语音库样例

TSC973电话语料库样例