CADCC概述

 

(1)   项目名称(中、英文)

CADCC-汉语普通话自然口语对话语料库

CADCC-Chinese Annotated Dialogue and Conversation Corpus

 

2)项目简述

 

   CADCC自然口语对话语料库由自然口语对话语音数据和对话文本组成,适用于自然口语研究、语音识别工程和高级汉语普通话教学等领域。

   该语料库为保证自然口语的纯粹性,对发音人对话内容不作任何限制,完全反映真实环境下汉语自然口语特征。语料库语音数据由经过挑选的标准普通话发音人在专业录音环境下录制,共计12个对话单元,每一对话单元有两位发音人。语料库声音数据文件采用高质量16KHZ采样、16位数据、单声道WAV格式存储,库容量约1.6GB。语料库内容文本采用人工标注方式完成,可信度高。

3)单位名称(中、英文)

中国社会科学院语言所北京建国门内大街5号   中国社会科学院语言所语音研究室

邮政编码:100732

电话:(+86-010-65237408 / 85195394

Phonetics Lab, Institute of Linguistics, Chinese Academy of Social Sciences

5 Jian Guo Men Nei Da Jie, Beijing 100732
CHINA
Phone: +86-10-6523 7408
Fax: +86-10-85195396
E-mail: liaj@cass.org.cn

 

4)开发时间

2000年至2002年月

5)规模

12个对话单元,每一对话单元有两位发音人,共约十四小时语料。语料库声音数据文件采用高质量16KHZ采样、16位数据、单声道WAV格式存储,库容量约1.6GB

语料库内容文本采用人工标注方式完成。

6)定价

[见价格表]

7)相关技术文档(见METADATA目录)

CADCC标注规范》

CADCC录音和存储规范》

8)语音库样例

CADCC样例