ASCCD说明

 

1.ASCCD朗读语篇语料库简介

   

ASCCD朗读语篇语料库(Annotated Speech Corpus of Chinese Discourse)由语篇语料、语音数据和语音学标注信息组成,适用于语言语音研究、语音工程开发和基础汉语普通话教学等领域。

该语音语料库的语料结合学术和工程需求,经过科学的研究、论证、设计而成,内容包括18篇文章,体裁覆盖记叙、议论、通讯、散文等常见文体。语音数据由精选的10位(5女5男)北京地区标准普通话发音人录制而成。声音文件采用高质量16KHZ采样、16位数据、双声道WAV格式存储,库容量约1.5GB。语音学标注信息采用人工标注方法完成,内容包括拼音、声韵母、韵律、重音等。

更多信息请参考ASCCD概述文件(..\DOC\OVERVIEW.doc)

   

2.目录结构

 

ASCCD朗读语篇语料库的目录结构和说明如下:

1)              ..\DATAANNO   

声音数据和标注数据目录,其中又有WAV(声音数据)、LAB(语音学标注)、SYNTAX_LAB(句法标注)三个子目录。

关于声音和标注数据的详细说明,请参考ASCCD录音规范(..\METADATA\ SPECREC.DOC)和标注规范(..\METADATA\ SPECANNO.DOC)。

 

2)              ..\DOC

项目说明文档目录,其中有2个MICROSOFT WORD格式文件,分别为:

README.DOC ——即本文件,主要介绍ASCCD的组成和各部分目录结构

OVERVIEW.DOC——ASCCD项目概述文件。

 

3)              ..\TOOLS

ASCCD所用的一些工具软件。

ASCCD标注文件可用语音学软件praat实时显示,该软件网址:http://www.fon.hum.uva.nl/praat/

 

4)              ..\METADATA

    ASCCD规范说明目录,其中包含2个MICROSOFT WORD格式文件,分别为:

SPECANNO.DOC ——介绍ASCCD的语音学标注和句法标注有关规范。

SPECREC.DOC——介绍ASCCD的录音和存储规范。

 

5)              ..\TXT

    ASCCD录音内容的文本。

 

 

 

ASCCD录音和存储规范

【录音规范】

    2.1.1 录音环境:专业录音室

    2.1.2 录音设备:SONY DTC-55ES数码录音机

    2.1.3 喉头仪: KAY Layyngograph Model 6094

    2.1.4 话筒:CONDENSER CR1-4

    2.1.5 发音人嘴唇到话筒距离: 约20CM

    2.1.6 声卡:CREATIVE SOUND BLASTER LIVE!

    2.1.7 录音采样率: 44KHZ

    2.1.8 信噪比: <34db

    2.1.9 声音文件格式:16KHZ采样(声卡采样率)、16位数据、双声道WAV格式

 

本语料库声音信号首先使用数码录音机录制在数字磁带上,然后在电脑上采集为16KHZ采样、16bit、双声道WAV格式文件。

左声道为语音信号,右声道为声门信号(采用专业喉头仪录制,只包含声调信号,主要用于声调、语调研究和基频信号提取等)。左右声道信号可以采用常见的语音处理程序(如COOLEDIT、CREATIVE WAVESTUDIO、PRAAT等)分离并单独存储,用户可根据自己的情况使用不同声道的信号。

 

 

【数据存储】

 

声音文件以16KHz采样16bit精度,Wave格式存储。

 

 

   (版权声明:本语音语料库版权归中国社会科学院语言研究所语音研究室所有。)