CADCC说明

 

1. CADCC-汉语普通话自然口语对话语料库

   

CADCC自然口语对话语料库(Chinese Annotated Dialogue and Conversation Corpus)由自然口语对话语音数据和对话文本组成,适用于自然口语研究、语音识别工程和高级汉语普通话教学等领域。

该语料库为保证自然口语的纯粹性,对发音人对话内容不作任何限制,完全反映真实环境下汉语自然口语特征。语料库语音数据由经过挑选的标准普通话发音人在专业录音环境下录制,共计12个对话单元,每一对话单元有两位发音人。语料库声音数据文件采用高质量16KHZ采样、16位数据、单声道WAV格式存储,库容量约1.6GB。语料库内容文本采用人工标注方式完成,可信度高。

更多信息请参考CADCC概述文件(..\DOC\OVERVIEW.doc)

   

2.目录结构

 

CADCC自然口语对话语料库的目录结构和说明如下:

1)              ..\DATAANNO   

声音数据和标注数据目录。

关于声音和标注数据的详细说明,请参考录音规范(..\METADATA\ SPECREC.DOC)和标注规范(..\METADATA\ SPECANNO.DOC)。

 

2)              ..\DOC

项目说明文档目录,其中有2个MICROSOFT WORD格式文件,分别为:

README.DOC ——即本文件,主要介绍语料库的组成和各部分目录结构

OVERVIEW.DOC——项目概述文件。

 

3)              ..\METADATA

    规范说明目录,其中包含2个MICROSOFT WORD格式文件,分别为:

SPECANNO.DOC ——介绍标注规范。

SPECREC.DOC——介绍录音和存储规范。

SPECSPK.DOC——介绍发音人信息。

  

3.联系方法

更多信息中国社会科学院语言研究所语音研究室

地址:中华人民共和国北京市东城区建国门内大街5号中国社会科学院语言研究所语音研究室

邮政编码:100732

联系电话:(010)81595394

          (010)65237408

网址:http://www.cass.net.cn/chinese/s18_yys/yuyin/index.htm

 

 

CADCC录音和存储规范

【录音规范】

    2.1.1 录音环境:专业录音室(部分在安静的办公室环境)

    2.1.2 录音设备:GOLDEN无线录音设备、CR722电容话筒+SPIRIT调音台

    2.1.5 发音人嘴唇到话筒距离: 约20CM

    2.1.6 声卡:CREATIVE SOUND BLASTER LIVE!白金版

    2.1.7 声音文件格式:16KHZ采样(声卡采样率)、16位数据、单声道WAV格式

 

【数据存储】

 

声音文件以16KHz采样16bit精度,单声道,Wave格式存储。

 

(版权声明:本语音语料库版权归中国社会科学院语言研究所语音研究室所有。)