面向奥运的中英日三语语料库标注规范

1.        资源标注方法

1)    标注原则

一般来说,语料库标注的目的是将其中蕴含的信息显性地表示出来。对于多语平行语料库来说,其服务对象是机器翻译等跨语言处理技术研究,因此其标注的目的就是尽可能将与多语对译相关的信息表示出来。

就多语平行语料库来说,语料库的一个特点就是基本存放单元为对齐句对。这就要求在标注的时候还有考虑到保留篇章、段落等原始文本格式信息。

本项目的任务是收集旅游、餐饮、交通、体育和商务5个领域的中英日三语平行文本。将语料整理入库实际上就需要判定语料属于哪个类别。但是语料分类是一个比较微妙的问题,从不同的角度看一段语言素材可能同时适用于多个领域。根据前期的实践和分析,我们认为把语料整理作为文本标注处理更为合适:将文本的关键属性看作复杂特征,变语料分类入库为语料整理标注。

为此,该三语平行语料库的标注的目标不是将语料进行更细的分类,而是希望通过标注过程,尽量标识文本的主要关键特征,使之可以满足机器翻译等研究中的潜在需求。

 

2)    主要标注内容

       由于该语料库将直接服务于面向奥运的机器翻译系统的开发,特别是其中将面临众多的口语对话的翻译需求,所以除了常见的文本格式的标注以外,语言素材的使用环境成为主要的考虑内容。

目前的语料标注主要包括以下若干方面的内容:

1)              文本基本特征:包括文本类型(对话、典型例句、篇章)、语言类别(汉语、英语、日语)、段落标志、文章题目等;

2)              领域特征:即旅游、餐饮、交通、体育和商务5个领域,文本分别归入这五大类存放;

3)              语境信息:主要是语言发生的场景信息,例如饭店、出租车、海关、机场等;

4)              语用信息:包括五个领域、言语发生的地点;

 

3)    标注集的确定

标注中,我们采用两种方法形成了标注集1

第一种方法是针对文本基本特征等标注内容,预先制定了一个封闭集合,标注过程中只允许从中择一进行标注。

第二种是对于类似语境、语用这样的内容,由于预先无法预料实际语料中的情况,我们采用了一种开放的标注集策略。即事先仅给出一些概念性的定义和示例,具体标注集由语料加工过程中动态添加,而由专家不断对上一阶段产生的标注集进行归纳整理,从而最终形成语料库所使用的标注集。

语料库中不同领域下的“场景”和“主题”最终采用的标注集如表1所示,

 

注意:和领域名相同的场景符号所属的语料对于整个领域较为常见,其使用不受场景的限制(或暂时无法确定其场景)。例如,旅游领域中场景标为“旅游”的语料,其语言内容对于旅游领域来说十分常见,没有必要区分具体使用场景。

 

 

领域

场景

主题

旅游

旅行社、电话局、照相馆、旅游、宾馆、裁缝店、美容美发、家中、娱乐场所、警察局、邮局、洗衣店、旅游景点、购物场所、修理店、银行、医院

求救、洗照片、换房、抱怨、汇兑、谈论爱好、买药、祝贺、音乐会、赌博、北京、谈论景点、紧急事故、账户、邮寄、谈论音乐会、越秀公园、舞厅、买票、售后服务、剧院、故宫博物馆、华西街、万寿山与昆明湖、地毯厂、洗衣、结账、苏州、谈论电影、订购商品、谈论天气、点歌、三峡、询问时间、做衣服、看望病人、预定房间、邀请、前台服务、修表、讨价还价、唐人街、尼亚加拉瀑布、付账、退房、图书馆、伦敦、寄存、寒暄身体情况、取消约会、礼仪、兑换、招待、感谢、伦敦特拉法加广场、存取、看病、邀请用餐、长城、谈论戏剧、道歉、取消预定房间、报案、送别、电报、张家界、艺术馆、秦兵马俑、道别、看马戏、预约、大峡谷、晚会、变更预定房间、无锡、谈论京剧、索赔、推销、退货、取消预定、买货、迪斯尼乐园、电话服务、南京、求助、入座、寒暄、光孝寺、拜访、电影院、旅行路线、学校、埃菲尔铁塔、风俗习惯、简介、泰晤士河、上海、修改、颐和园、询问银行、夜总会、电话找人、要求、电话留言、付款、谈论旅游、客房服务、定购服务、预定约会、谈论电视、预定娱乐场所座位、导游、预定、杭州、抽烟、租房、入住、漓江、收取

餐饮

家、餐饮、咖啡屋、茶馆、酒吧、餐厅、自助餐厅、快餐厅

抱怨、就座、野餐、简介、就餐中要求服务、预定餐厅座位、付账、食物、邀请进餐、点菜、感谢、外卖、做饭、定座、邀请用餐、进餐中要求服务、小费、寒暄、上菜、饮食文化

交通

码头、海关、途中、加油站、火车、火车站、其他工具、出租车、机场、公共汽车、维修站、交通、地铁、大使馆、轮船、飞机

检票、送别、关税申报、不舒服的时候、缆车、道别、接人、食物、谈论交通、买票、确认订票、询问交通情况、中转、订票、购票、服务、照相、退票、机场信息、付费、加油、出入境、谈论天气、求助、问路、入座、寒暄、用餐、到达、租车、询问、行李、简介、无轨电车、签证、海关检验、要求、启程、误班、感谢、预定、班次、交通事故、购物、更改班次

体育

冰雪运动、登山、射击、休闲运动、体育、球类、马上运动、搏击运动、棋牌、水上运动、自行车、击剑、铁人三项、举重、田径运动、现代五项、体操、射箭

马术、滑雪、乒乓球、射击、中国象棋、高尔夫球、投掷项目、围棋、拳击、跆拳道、自行车、游泳、手球、举重、现代五项、曲棍球、羽毛球、篮球、体育常识、体操、赛艇、气功、寒暄、保龄球、排球、溜冰、登山、棒球、跳水、摔跤、网球、太极拳、奥运村、皮划艇、击剑、铁人三项、奥运常识、国际象棋、足球、帆船、水球、径赛项目、赛马、射箭、跳跃项目、柔道

商务

商务、商务书信、公司

抱怨、求职信、应酬、推荐信、公司通知、预约、洽谈、办公室业务、推销、更改预约、收款、信用证、商品售后服务、难以通话、找工作、求助、投诉、接待、面试、寒暄、邀请、拜访、保险、请假、取消预约、股票、安排工作、法律协助、电话找人、感谢、财务、接待 、邀请用餐、业务预约s

 

表一. 三语语料标注集一览

 

 

2.        资源标注文件的格式

语料库采用Unicode解决汉语(中文简体)、英语和日语三语文本的编码问题,并采用xml格式标注、存储。具体来说:

1)语料库分5个文本存放,分别针对旅游、餐饮、交通、体育和商务5个领域,因此领域信息在文本中不再标出;

2)在每个文本中,语料首先根据文本类型分为“对话”和“典型例句”(目前语料中未包含“篇章”类型的语言素材);

3)在每一种类型的文本中,语料分别按照场景存放;

4)在每个场景中,语料再按照不同的主题存放;

5)在每个主题下,存放着所收集到的对话和例句实体;

6)对于例句,将所有句对顺次列出。对于每个对话采用<segment>标签表示出对话的起始和结束(即段落信息)

7)在每个<Segment>内的第一行,都将本段对话(或者若干典型例句)的标注信息再次用<label>标出

8)在每个对话内部,实际上是经过对齐加工的一个个三语句对。即对话者说出的若干句话将被分为若干句对的形式,按照先后顺序排列。但是,语料中保留了对话者的标志,如“A:”、“小王:”。通过这些信息,可以恢复出对话原有的话轮结构。

9)每个三语句对用<sentence >标签标出,内部按照英语、汉语、日语分行存放;

 

 

3.        资源标注实例

- <corpus>

  - <texttype type="对话">

    - <scene name="酒吧">

      - <topic name="上菜">

          - <segment>

            <label>###文本类型=对话 场景=酒吧 场景活动主题=上菜 对话人数=2 对话人1=S 对话人2=G</label>

              - <text>

                - <sentence>

                     <english_sentence>S: Your red Burgundy, sir.Would you like to taste it?</english_sentence>

                     <chinese_sentence>S: 先生,您的布根地红酒,要不要尝尝看?</chinese_sentence>

                    <japanese_sentence>お客様、ご注文のブルゴーニュワインでございますが、お試しくださいませんか。</japanese_sentence>

                </sentence>

 

                + <sentence>

                + <sentence>

                + <sentence>

                + <sentence>

                + <sentence>

 

              </text>

        </segment>

        + <segment>

        + <segment>

      </topic>

     

      + <topic name="点菜">

    </scene>

    + <scene name="餐厅">

    + <scene name="咖啡屋">

    + <scene name="">

    + <scene name="自助餐厅">

    + <scene name="快餐厅">

    + <scene name="茶馆">

    + <scene name="餐饮">

  </texttype>

  + <texttype type="典型例句">

</corpus>