正式提交ChineseLDC的资源必须按照如下目录结构组织:
最上层目录包括如下内容:
l
文档目录
l
资源目录
l
其它相关目录
其中每一项包括的内容如下所述。
1.文档目录
文档目录至少包括三个文件:资源基本信息、资源标注规范、资源技术文档以及资源使用说明书。
(1)资源基本信息包括如下内容:
1)
资源名称
2)
发布日期,含版本号
3)
作者(主要参与设计和构建资源的人员,包括人名和电子邮件)*
4)
单位(或个人)
5)
资源类型(文本,语音,视频等)
6)
资源来源(新闻,报纸,电话,自然口语等),建立数据的年份和过程*
7)
语言类型(汉语普通话、汉语广东话、英语、中英文混读等)
8)
依托的项目(例如:863、973、自然科学基金等),请注明项目编号,
并简述项目的研究目标,以及资源与该项目的关联
9)
用途(例如:跨语言信息检索,自动摘要,机器翻译,语音分析,语音识别,说话人识别,语音合成,口语对话系统等等)
10)
资源内容描述
11)
资源的规格描述
§
资源的描述信息
i. 对于文本资源,需包括:文件格式,字符编码方式,有效信息的大小(如:多少个篇章、句子、词、音节、音素等),占磁盘存储空间大小(以千字节数为单位)
ii. 对于语音和视频资源,需包括:文件格式,通道数,音视频采样率,采样格式,时间长度,占磁盘存储空间大小(以兆字节数为单位)
§ 详细的数据目录结构描述
(2)资源标注规范需包括如下内容:
1)
资源标注方法
2)
资源标注文件的格式
3)
资源标注实例
(3)资源技术文档需包括如下内容:
1)
资源设计的背景、原理和算法等
2)
资源覆盖的因素
3)
与本资源相关的技术原理、应用方法等
2.资源目录
-(必须与资源基本信息中描述的目录结构完全一致)
3.其它相关目录
-
涉及到资源的相关工具、其它文档、需要的特殊字符集等。