ASCCD说明
1.ASCCD朗读语篇语料库简介
ASCCD朗读语篇语料库(Annotated Speech Corpus of Chinese Discourse)由语篇语料、语音数据和语音学标注信息组成,适用于语言语音研究、语音工程开发和基础汉语普通话教学等领域。
该语音语料库的语料结合学术和工程需求,经过科学的研究、论证、设计而成,内容包括18篇文章,体裁覆盖记叙、议论、通讯、散文等常见文体。语音数据由精选的10位(5女5男)北京地区标准普通话发音人录制而成。声音文件采用高质量16KHZ采样、16位数据、双声道WAV格式存储,库容量约1.5GB。语音学标注信息采用人工标注方法完成,内容包括拼音、声韵母、韵律、重音等。
更多信息请参考ASCCD概述文件(..\DOC\OVERVIEW.doc)
2.目录结构
ASCCD朗读语篇语料库的目录结构和说明如下:
1) ..\DATAANNO
声音数据和标注数据目录,其中又有WAV(声音数据)、LAB(语音学标注)、SYNTAX_LAB(句法标注)三个子目录。
关于声音和标注数据的详细说明,请参考ASCCD录音规范(..\METADATA\ SPECREC.DOC)和标注规范(..\METADATA\ SPECANNO.DOC)。
2) ..\DOC
项目说明文档目录,其中有2个MICROSOFT WORD格式文件,分别为:
README.DOC ——即本文件,主要介绍ASCCD的组成和各部分目录结构
OVERVIEW.DOC——ASCCD项目概述文件。
3) ..\TOOLS
ASCCD所用的一些工具软件。
ASCCD标注文件可用语音学软件praat实时显示,该软件网址:http://www.fon.hum.uva.nl/praat/
4) ..\METADATA
ASCCD规范说明目录,其中包含2个MICROSOFT WORD格式文件,分别为:
SPECANNO.DOC ——介绍ASCCD的语音学标注和句法标注有关规范。
SPECREC.DOC——介绍ASCCD的录音和存储规范。
5) ..\TXT
ASCCD录音内容的文本。
【录音规范】
2.1.1 录音环境:专业录音室
2.1.2 录音设备:SONY DTC-55ES数码录音机
2.1.3 喉头仪: KAY Layyngograph Model 6094
2.1.4 话筒:CONDENSER CR1-4
2.1.5 发音人嘴唇到话筒距离: 约20CM
2.1.6 声卡:CREATIVE SOUND BLASTER LIVE!
2.1.7 录音采样率: 44KHZ
2.1.8 信噪比: <34db
2.1.9 声音文件格式:16KHZ采样(声卡采样率)、16位数据、双声道WAV格式
本语料库声音信号首先使用数码录音机录制在数字磁带上,然后在电脑上采集为16KHZ采样、16bit、双声道WAV格式文件。
左声道为语音信号,右声道为声门信号(采用专业喉头仪录制,只包含声调信号,主要用于声调、语调研究和基频信号提取等)。左右声道信号可以采用常见的语音处理程序(如COOLEDIT、CREATIVE WAVESTUDIO、PRAAT等)分离并单独存储,用户可根据自己的情况使用不同声道的信号。
【数据存储】
声音文件以16KHz采样16bit精度,Wave格式存储。
(版权声明:本语音语料库版权归中国社会科学院语言研究所语音研究室所有。)