TSC973-973电话语料库
TSC973-Telephone Speech
Corpus 973
TSC973电话语料库是国家973计划支持项目,由中国科学院自动化研究所(承担语音数据采集工作)和中国社会科学院语言研究所(承担文本转写和语音学标注工作)合作完成。
TSC973由真实环境下收集的酒店订房电话(对话)语音数据、文字转写和多层语音学标注组成。共有10个对话单元(分为93个声音文件),规模约120MB。语音信息采用电话录音通道采集,以8000赫兹,16位,单声道WAV格式存储,文字内容和语音学标注完全由人工手工完成,准确度高。标注信息丰富,共有7层,包括音节、声韵母、副语言学、发音人信息、句式、韵律单元、重音等内容(部分噪音较大的声音未作标注,实际标注文件共83个)。
TSC973主要针对口语(音段、韵律等)研究、语音(识别)工程等领域,尤其适合电话通讯领域的语音学研究。
中国社会科学院语言所北京建国门内大街5号
中国社会科学院语言所语音研究室
邮政编码:100732
电话:(+86)-010-65237408 / 85195394
Phonetics Lab, Institute of Linguistics, Chinese Academy of Social Sciences
5 Jian Guo Men Nei Da Jie, Beijing 100732
CHINA
Phone: +86-10-6523 7408
Fax: +86-10-85195396
E-mail: liaj@cass.org.cn
2001年至2003年月
TSC973由真实环境下收集的酒店订房电话(对话)语音数据、文字转写和多层语音学标注组成。共有10个对话单元(分为93个声音文件),规模约120MB。
语音信息采用电话录音通道采集,以8000赫兹,16位,单声道WAV格式存储。
文字内容和语音学标注完全由人工手工完成,准确度高。标注信息丰富,共有7层,包括音节、声韵母、副语言学、发音人信息、句式、韵律单元、重音等内容(部分噪音较大的声音未作标注,实际标注文件共83个)。
[见价格表]
《TSC973标注规范》
《TSC973录音和存储规范》