面向奥运的中英日三语语料库
为了支持面向北京2008的跨语言自然语言处理系统的开发,我们进行了多语平行语料库建设的尝试。目前推出了第一阶段成果:包括汉语、英语、日语三种语言的对译平行语料库。语料包含旅游、餐饮、体育、交通、商务5个和奥运紧密相关的领域。全部语料完成了句子层次的对齐加工,并经过人工校对。语料标注采用xml格式,保留了原始语料的自然结构信息,如段落、对话的话轮结构、对话人数等;标注了语言发生的场景、言语主题等篇章信息。
本资源主要用于面向奥运的中英日三语间机器翻译系统的开发,特别是为系统的研制提供了面向口语处理的训练语料。同时对于其他中英日三语间的跨语言信息处理系统(如跨语言信息检索)的开发具有一定的应用价值。
面向奥运的中英日三语语料库
2004年12月19日,1.0版
赵铁军 教授 tjzhao@mtlab.hit.edu.cn
杨沐昀 副教授 ymy@mtlab.hit.edu.cn
张姝 shzhang@mtlab.hit.edu.cn
张春祥 cxzhang@mtlab.hit.edu.cn
蒋宏飞 hfjiang@mtlab.hit.edu.cn
单位名称:哈尔滨工业大学计算机学院语言技术研究中心
通信地址:哈尔滨工业大学321信箱 (150001)
以对话句子为主构成的中英日三语平行文本
(或者说书面形式的口语材料)
语料主要来自语言教材,少量来自网络材料;
数据采集在2003~2004年,主要采自1990年以后出版的英语和汉语学习教材。少量语料来自网络上符合需求的语言素材。
采集过程主要分为汉英双语语料库的搜集和汉日翻译2个主要环节。英汉双语语料库的建设工作大致可以分为以下几个步骤:1)英汉双语语料的筛选,从网络、报刊、杂志、书籍等各种媒体收集旅游、餐饮、体育、交通、商务五个领域的汉英双语文本;2)手工筛选旅游、餐饮、交通、体育、商务5个领域中、不同场景、不同主题的典型语言材料;3)将非电子文档输入计算机(3遍校对),并利用计算机自动去除冗余的语言素材;4)开发并利用汉英双语句子对齐自动工具,对双语文本进行句子自动对齐加工,形成双语句对。4)对双语句对进行必要的标注。利用上述方法获取汉英双语文本后,通过手工翻译获得日语语料。
中文(简体)
英文
日语
依托863项目——面向奥运智能信息服务的平行语料加工、文摘、自然语言检索技术(项目编号2002AA117010-09);
该项目的目标就是面向奥运多语信息服务的需求,构建中日英三语平行语料库,并研究自动文摘技术和自然语言检索技术。课题合同中确定要“构建200万字的中英日平行语料库,包括旅游、餐饮、交通、体育和商务5个领域”
本资源主要用于面向奥运的中英日三语间机器翻译系统的开发,特别是为系统的研制提供了面向口语处理的训练语料。同时对于其他中英日三语间的跨语言信息处理系统(如跨语言信息检索)的开发具有一定的应用价值。
1) 目的:为了支持面向北京2008的跨语言自然语言处理系统的开发,我们进行了多语平行语料库建设的尝试。目前的版本是这一尝试的一个阶段成果;
2) 语种:目前仅包括汉语、英语、日语三种语言;
3) 语料领域:包含旅游、餐饮、体育、交通、商务5个和奥运紧密相关的领域
4) 对齐加工粒度:完成了句子层次的对齐加工,并经过句子3遍人工校对,正确率抽样检查达到99.9%以上。
5) 语料标注:保留了原始语料的自然结构信息,如段落、对话的话轮结构、对话人数等;标注了语言发生的场景、言语主题等篇章信息。全部场景及主题参见“资源标注规范”。
1)
资源的描述信息
该语料库由5个XML文本组成,分别对应旅游、餐饮、交通、体育和商务5个领域,文本采用Unicode编码。
语料库中每个领域包含汉英日平行语料44万余字( 采用Microsoft Word2003自动统计,其中英语每个单词计为1字;),共计220余万字。语料库加工到句子层次对齐,共计包含52227个三语句对(详见下表)。占用磁盘空间约14820k字节。
|
旅游 |
餐饮 |
体育 |
交通 |
商务 |
总计 |
句对数(个) |
11408 |
11352 |
7993 |
11869 |
9605 |
52227 |
汉语字数 |
151,553 |
145,906 |
145,063 |
152,258 |
156,029 |
750,809 |
英语词数 |
92,795 |
89,037 |
87,743 |
95,332 |
96,876 |
461,783 |
日语字数 |
196,667 |
206,075 |
227,294 |
212,953 |
223,082 |
1,066,071 |
总字数 |
441,015 |
441,018 |
460,100 |
460,543 |
475,987 |
2,278,663 |
表一.中英日三语平行语料库规模统计
注意,本语料库中的语言素材从三语句对的层次来看,仍然存在一定的冗余。其主要原因是:1)同一语句可用于不同领域;2)同一语句可用于某领域的不同场景、不同主题中;3)同一语句被同领域、同场景和同主题同时分别收录到典型例句和对话中。表二列出了句对层面语料库的冗余情况。
|
旅游 |
餐饮 |
体育 |
交通 |
商务 |
总计 |
原句对数 |
11408 |
11352 |
7993 |
11869 |
9605 |
52227 |
领域内去重后句对数 |
10472 |
10361 |
7580 |
10741 |
9376 |
48530 |
全语料库内去重后句对数 |
\ |
\ |
\ |
\ |
\ |
47641 |
表二. 语料库句子级冗余统计
2)
详细的数据目录结构描述
奥运中英日语料.cldc
|-- Doc
| |-- 1资源基本信息.doc
| |
| |-- 2资源标注规范.doc
| |
| +-- 3资源技术文档.doc
|
|-- Other 语料库的GB2312版本
| |-- canyin.xml
| |
| |-- jiaotong.xml
| |
| |-- lvyou.xml
| |
| |-- shangwu.xml
| |
| +-- tiyu.xml
|
+-- resource.unicode 语料库的Unicode版本
|-- canyin.xml
|
|-- jiaotong.xml
|
|-- lvyou.xml
|
|-- shangwu.xml
|
+-- tiyu.xml