科学数据库门户
首页 资源列表 资源提供 联盟会员 常见问题 服务公告 联系我们 2017年多模态情感识别竞赛 科学数据库
EN-CN
用户面板    
热门资源    
 
最新数据 更多
  当前位置:首页 > 提供数据规范
提供数据规范

正式提交ChineseLDC的资源必须按照如下目录结构组织:

最上层目录包括如下内容:

l      文档目录

l      资源目录

l      其它相关目录

其中每一项包括的内容如下所述。

1.文档目录

文档目录至少包括三个文件:资源基本信息、资源标注规范、资源技术文档以及资源使用说明书。

(1)资源基本信息包括如下内容:

1)     资源名称

2)     发布日期,含版本号

3)     作者(主要参与设计和构建资源的人员,包括人名和电子邮件)*

4)     单位(或个人)

5)     资源类型(文本,语音,视频等)

6)     资源来源(新闻,报纸,电话,自然口语等)建立数据的年份和过程*

7)     语言类型(汉语普通话、汉语广东话、英语、中英文混读等)

8)     依托的项目(例如:863973、自然科学基金等),请注明项目编号, 并简述项目的研究目标,以及资源与该项目的关联

9)     用途(例如:跨语言信息检索,自动摘要,机器翻译,语音分析,语音识别,说话人识别,语音合成,口语对话系统等等)

10)     资源内容描述

11)     资源的规格描述

§ 资源的描述信息

                               i. 对于文本资源,需包括:文件格式,字符编码方式,有效信息的大小(如:多少个篇章、句子、词、音节、音素等),占磁盘存储空间大小(以千字节数为单位)

                               ii. 对于语音和视频资源,需包括:文件格式,通道数,音视频采样率,采样格式,时间长度,占磁盘存储空间大小(以兆字节数为单位)

§     详细的数据目录结构描述

(2)资源标注规范需包括如下内容:

1)     资源标注方法

2)     资源标注文件的格式

3)     资源标注实例

(3)资源技术文档需包括如下内容:

1)     资源设计的背景、原理和算法等

2)     资源覆盖的因素

3)     与本资源相关的技术原理、应用方法等

2.资源目录 -(必须与资源基本信息中描述的目录结构完全一致)

3.其它相关目录 涉及到资源的相关工具、其它文档、需要的特殊字符集等。 

 

版权所有:中国中文信息学会   备案序号:京ICP备05036949号

本数据库由中国科学院十一五信息化建设专项“数据应用环境建设和服务”项目提供支持