WCSC说明

 

1.WCSC简介

   

汉语普通话两音节语音语料库由汉语两音节语音数据、两音节语料表及管理软件组成,适用于语言语音研究、语音工程开发和基础汉语普通话教学等领域。

    该语音语料库的语料内容结合学术和工程需求,经过科学的研究、论证、设计而成,覆盖汉语普通话常用词和各种声韵、声调和音联组合。两音节语音数据由精选的北京地区男性发音人标准普通话录音资料及其波形和宽带、窄带共振峰语谱图组成。发音人发音三千多组,声音文件采用高质量16KHZ采样16位数据单声道WAV格式存储,语谱图文件采用JPG图形文件存储,库容量约100MB。

语音语料库管理软件PreSpeech主要包含语音和语谱数据库的增删、语音播放、语谱显示、资料查询、查询条件订制、数据转存和数据编辑等功能,可以使用户实现对数据库资料的充分管理和利用。

更多信息请参考WCSC概述文件(..\DOC\OVERVIEW.doc)

   

2.目录结构

 

WCSC的目录结构和说明如下:

1)              ..\DATAANNO   

声音数据、宽带和窄带共振峰语谱图数据、发音文本数据所在目录。

WCSC根据语音特征的不同,将所有数据分为X、Y、Z三组。(X组是“38韵+零声母”的组合,Y组是“38韵+b.p.m.f.d.t.n.l.g.k.h.”的组合,Z组是“38韵+z.c.s.zh.ch.sh..r.j.q.x.”的组合)。

Xwav目录、Xjpg目录、X.txt分别是X组数据的声音、语谱图、文本数据。

Ywav目录、Yjpg目录、Y.txt分别是Y组数据的声音、语谱图、文本数据。

Zwav目录、Zjpg目录、Z.txt分别是Z组数据的声音、语谱图、文本数据。

 

关于声音数据、语谱图数据、文本数据的详细说明,请参考WCSC录音规范(..\METADATA\SPECREC.DOC)和语料设计规范(..\METADATA\SPECTEXT.DOC)。

 

2)              ..\DOC

项目说明文档目录,其中有2个MICROSOFT WORD格式文件,分别为:

README.DOC ——即本文件,主要介绍WCSC的组成和各部分目录结构

OVERVIEW.DOC——WCSC项目概述文件。

 

3)              ..\TOOLS

内有WCSC管理软件prjSpeech,安装后使用,主要包含对WCSC语音数据库的增删、语音播放、资料查询、查询条件订制、数据转存和数据编辑等功能,可以使用户实现对数据库资料的充分管理和利用。

具体使用方法,请参考prjSpeech使用说明(..\TOOLS\SOFT-README.DOC)

 

4)              ..\METADATA

WCSC规范说明目录,其中包含2个MICROSOFT WORD格式文件:

SPECREC.DOC——介绍WCSC的录音和存储规范。

SPECTEXT.DOC——介绍WCSC的语料设计规范。

 

5)              ..\TXT

   WCSC录音内容的文本。

 

  

WCSC语料设计规范

 

WCSC根据语音特征的不同,将所有数据分为X、Y、Z三组。

X组是“38韵+零声母”的组合;

Y组是“38韵+b.p.m.f.d.t.n.l.g.k.h.”的组合;

Z组是“38韵+z.c.s.zh.ch.sh..r.j.q.x.”的组合)。

 

    对应的文本 X.txtY.txtZ.txt分别存储在..\DATAANNO\..\TXT\两个目录中。

 

(版权声明:本语音语料库版权归中国社会科学院语言研究所语音研究室所有。)