面向奥运的中英日三语语料库

为了支持面向北京2008的跨语言自然语言处理系统的开发,我们进行了多语平行语料库建设的尝试。目前推出了第一阶段成果:包括汉语、英语、日语三种语言的对译平行语料库。语料包含旅游、餐饮、体育、交通、商务5个和奥运紧密相关的领域。全部语料完成了句子层次的对齐加工,并经过人工校对。语料标注采用xml格式,保留了原始语料的自然结构信息,如段落、对话的话轮结构、对话人数等;标注了语言发生的场景、言语主题等篇章信息。

本资源主要用于面向奥运的中英日三语间机器翻译系统的开发,特别是为系统的研制提供了面向口语处理的训练语料。同时对于其他中英日三语间的跨语言信息处理系统(如跨语言信息检索)的开发具有一定的应用价值。

 

 

  1. 资源名称

                        面向奥运的中英日三语语料库

 

  1. 发布日期

                        20041219日,1.0

 

  1. 作者:

                        赵铁军                         教授                                      tjzhao@mtlab.hit.edu.cn

                        杨沐昀 副教授                                            ymy@mtlab.hit.edu.cn

                        张姝                                                                                        shzhang@mtlab.hit.edu.cn

                        张春祥                                                                                    cxzhang@mtlab.hit.edu.cn

                        蒋宏飞                                                                                    hfjiang@mtlab.hit.edu.cn

 

  1. 单位及通讯地址

单位名称:哈尔滨工业大学计算机学院语言技术研究中心

      通信地址:哈尔滨工业大学321信箱 150001

 

  1. 资源类型

                  以对话句子为主构成的中英日三语平行文本

                  (或者说书面形式的口语材料)

  1. 资源来源

                        语料主要来自语言教材,少量来自网络材料;

                        数据采集在2003~2004年,主要采自1990年以后出版的英语和汉语学习教材。少量语料来自网络上符合需求的语言素材。

                        采集过程主要分为汉英双语语料库的搜集和汉日翻译2个主要环节。英汉双语语料库的建设工作大致可以分为以下几个步骤:1)英汉双语语料的筛选,从网络、报刊、杂志、书籍等各种媒体收集旅游、餐饮、体育、交通、商务五个领域的汉英双语文本;2手工筛选旅游、餐饮、交通、体育、商务5个领域中、不同场景、不同主题的典型语言材料;3将非电子文档输入计算机(3遍校对)并利用计算机自动去除冗余的语言素材4)开发并利用汉英双语句子对齐自动工具,对双语文本进行句子自动对齐加工,形成双语句对。4)对双语句对进行必要的标注。利用上述方法获取汉英双语文本后,通过手工翻译获得日语语料。

 

  1. 语言类型

                        中文(简体)

                        英文

                        日语

 

  1. 依托的项目

                        依托863项目——面向奥运智能信息服务的平行语料加工、文摘、自然语言检索技术(项目编号2002AA117010-09);

                        该项目的目标就是面向奥运多语信息服务的需求,构建中日英三语平行语料库,并研究自动文摘技术和自然语言检索技术。课题合同中确定要“构建200万字的中英日平行语料库,包括旅游、餐饮、交通、体育和商务5个领域”

 

  1. 用途

                        本资源主要用于面向奥运的中英日三语间机器翻译系统的开发,特别是为系统的研制提供了面向口语处理的训练语料。同时对于其他中英日三语间的跨语言信息处理系统(如跨语言信息检索)的开发具有一定的应用价值。

 

  1. 资源内容描述

1)      目的:为了支持面向北京2008的跨语言自然语言处理系统的开发,我们进行了多语平行语料库建设的尝试。目前的版本是这一尝试的一个阶段成果;

2)      语种:目前仅包括汉语、英语、日语三种语言;

3)      语料领域:包含旅游、餐饮、体育、交通、商务5个和奥运紧密相关的领域

4)      对齐加工粒度:完成了句子层次的对齐加工,并经过句子3遍人工校对,正确率抽样检查达到99.9%以上。

5)      语料标注:保留了原始语料的自然结构信息,如段落、对话的话轮结构、对话人数等;标注了语言发生的场景、言语主题等篇章信息。全部场景及主题参见“资源标注规范”。

 

  1. 资源的规格描述

1)     资源的描述信息

                        该语料库由5XML文本组成,分别对应旅游、餐饮、交通、体育和商务5个领域,文本采用Unicode编码。

                        语料库中每个领域包含汉英日平行语料44万余字( 采用Microsoft Word2003自动统计,其中英语每个单词计为1字;),共计220余万字。语料库加工到句子层次对齐,共计包含52227个三语句对(详见下表)。占用磁盘空间约14820k字节。

 

旅游

餐饮

体育

交通

商务

总计

句对数()

11408

11352

7993

11869

9605

52227

汉语字数

151,553

 

145,906

 

145,063

 

152,258

 

156,029

 

750,809

英语词数

92,795

 

89,037

 

87,743

95,332

 

96,876

 

461,783

日语字数

196,667

 

206,075

 

227,294

212,953

 

223,082

 

1,066,071

总字数

441,015

441,018

 

460,100

460,543

 

475,987

 

2,278,663

表一.中英日三语平行语料库规模统计

                        注意,本语料库中的语言素材从三语句对的层次来看,仍然存在一定的冗余。其主要原因是:1)同一语句可用于不同领域;2)同一语句可用于某领域的不同场景、不同主题中;3)同一语句被同领域、同场景和同主题同时分别收录到典型例句和对话中。表二列出了句对层面语料库的冗余情况。

 

旅游

餐饮

体育

交通

商务

总计

原句对数

11408

11352

7993

11869

9605

52227

领域内去重后句对数

10472

 

10361

 

7580

 

10741

 

9376

 

48530

 

全语料库内去重后句对数

\

\

\

\

\

47641

 

表二. 语料库句子级冗余统计

                       

 

2)     详细的数据目录结构描述

 

奥运中英日语料.cldc

       |-- Doc

       |   |-- 1资源基本信息.doc

       |   |

       |   |-- 2资源标注规范.doc

       |   |

       |   +-- 3资源技术文档.doc

       |

       |-- Other   语料库的GB2312版本

       |   |-- canyin.xml

       |   |

       |   |-- jiaotong.xml

       |   |

       |   |-- lvyou.xml

       |   |

       |   |-- shangwu.xml

       |   |          

       |   +-- tiyu.xml

       |

       +-- resource.unicode   语料库的Unicode版本

           |-- canyin.xml

           |

           |-- jiaotong.xml

           |

           |-- lvyou.xml

           |

           |-- shangwu.xml

           |          

           +-- tiyu.xml