面向奥运的中英日三语语料库有关研制情况的说明

 

1.        资源设计的背景、原理和算法等

1)资源设计背景

2008年北京奥运会对跨语言信息服务提出了挑战,迫切需要计算机研究人员研制实用的跨语言信息处理系统。为了支持以机器翻译为代表的此类跨语言信息处理系统的开发,解决目前基于语料库的(跨)语言信息处理系统的研制中的资源需求,863计划立项支持构建用于机器翻译的汉、英、日平行语料库,目标为:旅游、餐饮、体育、交通和商务领域,共计200万字。各领域基本均衡。

2)资源设计原理

1)关于语料内容:针对课题要求,我们通过研究发现,机器翻译面临的主要任务是人员信息交流的翻译和新闻发布的翻译,而前者产生的地域广、数量多而且随机性较大,是奥运多语服务的主要难题。因此,本语料库将对话语言作为主要收集对象。

2)关于语料采集对象:由于资金和时间的限制,我们无法从人们的真实对话中获取100%的真实语料。考虑到书面纪录的对话更为规整,更方便计算机的发现其中的语言规律,因此语料库的收集对象为各种媒体上记录的对话语料。

3)语料收集策略:经过调查,我们发现目前互联网上适合本项目需求的汉英(或者汉日、英日)双语语料较为有限,而汉英日三语语料几乎没有,无法满足短时间内大规模三语平行语料建设的需要。相对来说,英语和汉语的语言教材(包括各种课本和学习材料)中,目标领域的语言素材大量存在。为此,我们制定了以“面向书面出版物,以英汉双语语料收集为主、日语手工翻译为辅”的汉英日三语语料库建设策略。

 

2.        资源覆盖的因素

1)    合同规定,本资源应覆盖和奥运相关的旅游、餐饮、体育、交通和商务5个领域的中英日三种语言对译素材;

2)    语料收集过程中,重点考虑收录每个领域中的典型语料,同时兼顾出现可能性较小的语料。由于课题时间、资金等客观限制,加之平行语料资源有限,因此对于上述领域中的各种可能的语料无法全面覆盖。语料收集虽然没有刻意追求全面,但是对于出现的语料一经发现,均先收录;并适当删减高频语料,保证总体规模平衡。

3)    对于旅游、餐饮、交通和商务领域,语料的“场景”和“主题”标注比较容易,语料覆盖的范围也比较好观察、控制。

4)    对于体育领域,由于涉及的“场景”难以甄别,而且谈论主题多为体育项目,所以用“场景”设为“体育项目”,同时“主题”则为该项目的细分类。

具体语料覆盖范围和规模请参见下表。其中括号内为该标注下所包含的三语句对数目。注意:和领域名相同的场景符号所属的语料对于整个领域较为常见,其使用不受场景的限制(或暂时无法确定其场景)。例如,旅游领域中场景标为“旅游”的语料,其语言内容对于旅游领域来说十分常见,没有必要区分具体使用场景。

 

文本类型

=典型例句

场景

主题

旅游

 

 

修理店(1)

修表(1)

医院(19)

看望病人(2) 看病(17)

娱乐场所(30)

买票(9) 入座(1) 剧院(2) 夜总会(1) 寒暄(5)电影院(2) 舞厅(2) 谈论京剧(2) 谈论电影(4) 谈论电视(1) 音乐会(1)

家中(5)

招待(4) 拜访(1)

宾馆(81)

入住(23) 前台服务(9) 客房服务(20) 寄存(2) 寒暄(2) 抱怨(3)结账(13) 预定(8)

旅游(173)

寒暄(19) 求助(1) 礼仪(2) 租房(2) 简介(1)

紧急事故(2) 谈论旅游(8) 谈论景点(3) 送别(15) 邀请(5) 预定房间(1) 风俗习惯(10) 感谢(7) 求救(1) 电话找人(29) 电话服务(6)电话留言(2) 询问时间(10) 谈论天气(1) 道别(2) 道歉(5)

旅游景点(41)

万寿山与昆明湖(3) 三峡(1) 上海(4) 伦敦特拉法加广场(1) 北京(7) 南京(1) 唐人街(1) 图书馆(4) 地毯厂(1) 尼亚加拉瀑布(1)

无锡(2) 杭州(2) 秦兵马俑(2) 艺术馆(3) 苏州(1) 迪斯尼乐园(1) 颐和园(6)

旅行社(4)

定购服务(2) 旅行路线(2)

洗衣店(2)

洗衣(1) 要求(2)

电话局(15)

电话服务(15)

美容美发(8)

要求(8)

警察局(1)

报案(1)

购物场所(126)

买货(112) 付账(1) 付款(2) 售后服务(2) 寒暄(2) 讨价还价(6) 退货(1)

邮局(12)

邮寄(12)

银行(15)

兑换(6) 存取(4) 账户(5)

餐饮

餐厅(2519)

上菜(94) 付账(173)外卖(17) 定座(505)

寒暄 (43) 小费(3) 就座(234) 就餐中要求服务(87) 感谢(7) 抱怨(172) 点菜 (1059)简介(16) 邀请进餐(86) 食物(23)

茶馆(74)

点菜 (3) 饮食文化(71)

(146)

感谢(16) 邀请进餐(130)

酒吧(74)

上菜(32) 点菜 (42)

咖啡屋(23)

点菜 (23)

快餐厅(68)

点菜 (53) 邀请进餐(15)

自助餐厅(51)

点菜 (41)邀请进餐(10)

体育

体育 (637)

体育常识(265) 奥运常识(330) 奥运村(6) 径赛项目(36)

其他运动(339)

举重(39) 体操(94) 击剑(47) 射击(66) 射箭(64) 现代五项(10) 自行车(9) 铁人三项(10)

冰雪运动(32)

溜冰(12) 滑雪(20)

搏击运动(66)

拳击(8) 摔跤(40) 柔道(9) 跆拳道(9)

棋牌(24)

中国象棋(10) 围棋(8) 国际象棋(6)

水上运动(223)

帆船(9) 游泳(144) 皮划艇(9) 赛艇(9) 跳水(52)

球类(1547)

乒乓球(142) 保龄球(8) 手球(9) 排球(171) 曲棍球(9) 棒球(28) 篮球(739) 网球(194) 羽毛球(111) 足球(136)

马上运动(9)

马术(9)

交通

交通(289)

出入境(4) 启程(64) 寒暄(66) 简介(11) 订票(15) 谈论交通(129)

公共汽车(140)

买票(10) 入座(7) 寒暄(22) 询问(101)

出租车(703)

付费(70) 寒暄(295)租车(41)要求(219)预定(78)

大使馆(32)

签证(32)

机场(316)

中转(14) 买票(5) 接人(21) 机场信息(92)检票(50) 行李(27) 订票(48) 购票(59)

海关(199)

关税申报(63) 海关检验(136)

火车(67)

入座(6) 到达(10) 寒暄(15) 服务(30) 用餐(6)

火车站(193)

买票(21) 寒暄(49) 检票(21) 班次(28) 行李(19) 订票(15)购票(40)

码头(56)

寒暄(21) 行李(4) 误班(4) 购票(27)

维修站(3)

要求(3)

轮船(31)

不舒服的时候(4) 到达(15) 寒暄(8) 用餐(4)

途中(304)

寒暄(51) 照相(10) 问路(243)

飞机(183)

到达(48) 寒暄(25) 服务(92)用餐(18)

商务

公司(3778)

业务预约(17) 办公室业务(126) 安排工作(193) 寒暄(1970)找工作(107) 拜访(51) 接待(557) 洽谈(568) 请假(27) 邀请(15) 面试(79) 预约(68)

商务(916)

业务预约(17) 保险(24) 信用证(27) 取消预约(3) 商品售后服务(55) 安排工作(2) 寒暄(89) 应酬(161) 感谢(50) 找工作(18) 投诉(28) 接待(19) 推销(13) 收款(20) 更改预约(13) 求助(58) 法律协助(11) 洽谈(154) 电话找人(56) 股票(11) 财务(45) 邀请(42)

商务书信(56)

推荐信(16)求职信(40)

表一(1).三语语料库标注集合(对话文本部分)

 

 

文本类型=对话

场景

主题

旅游

 

 

修理店(20)

修表(20)

医院(443)

买药(85) 看病(322) 预约(36)

娱乐场所(983)

买票(91) 剧院(44) 夜总会(11) 寒暄(22) 晚会(17)

点歌(96) 电影院(76) 看马戏(14) 结账(47) 舞厅(105) 谈论京剧(59) 谈论戏剧(26) 谈论爱好(21) 谈论电影(132) 谈论电视(59) 谈论音乐会(83) 赌博(17) 音乐会(63)

家中(224)

寒暄(83) 感谢(11) 道别(20)

宾馆(2119)

入住(315) 前台服务(269) 取消预定(23) 变更预定房间(10) 客房服务(555) 寄存(23) 寒暄(63) 感谢(8)

抱怨(43) 换房(6) 汇兑(51) 洗衣(117) 结账(282)

退房(6) 预定(272)

旅游(3165)

 

取消约会(18) 取消预定房间(7) 寒暄(415) 寒暄身体情况(42) 感谢(84) 推销(5) 求助(126) 求救(8) 租房(260) 紧急事故(83) 订购商品(45) 询问银行(5) 谈论旅游(199) 谈论景点(313) 送别(22) 道别(49) 道歉(113) 邀请(130) 邀请用餐(45) 预定娱乐场所座位(20)

预定约会(55) 预约(21) 风俗习惯(40) 电话找人(440) 电话服务(307) 电话留言(28)祝贺(81)询问时间(47)谈论天气(132) 抽烟(25)

旅游景点(325)

上海(17) 伦敦(12) 光孝寺(11) 华西街(35) 唐人街(13) 图书馆(22) 埃菲尔铁塔(34) 大峡谷(12) 学校(16) 张家界(22) 故宫博物馆(14) 泰晤士河(16) 漓江(27) 越秀公园(25) 迪斯尼乐园(16) 长城(33)

旅行社(253)

定购服务(134) 导游(92) 旅行路线(27)

洗衣店(49)

寒暄(11) 要求(38)

电话局(29)

电话服务(29)

美容美发(255)

寒暄(9) 感谢(10) 要求(236)

警察局(50)

报案(50)

购物场所(2221)

买货(2036) 寒暄(10) 抱怨(43) 求助 (30) 索赔(21)

讨价还价(30) 退货(51)

邮局(309)

收取(10) 电报(34) 邮寄(265)

银行(290)

兑换(185) 存取(23) 账户(82)

照相馆(43)

洗照片(43)

裁缝店(97)

修改(42) 做衣服(32) 要求(23)

餐饮

餐厅(6006)

上菜(253)付账(503) 外卖(57) 定座(656) 寒暄(53) 就座(619) 就餐中要求服务(266) 感谢(74) 抱怨(449) 点菜(2823) 邀请进餐(218) 食物(36)

茶馆(16)

点菜(16)

家中(453)

做饭(5) 寒暄(12) 感谢(7) 抱怨(7) 点菜(13) 进餐中要求服务(8) 邀请进餐(254) 食物(147) 招待(105) 拜访(5)

酒吧(446)

上菜(15) 点菜(431)

咖啡屋(219)

付账(15) 就座(68) 点菜(136)

快餐厅(333)

点菜(315) 邀请进餐(18)

自助餐厅(153)

就座(34) 点菜(98) 邀请进餐(21)

体育

体育 (492)

体育常识(168) 奥运常识(116) 奥运村(201) 寒暄(7)

体操(200)

 

举重(78)

 

其他运动(535)

击剑(57) 射击(58) 射箭(71) 现代五项(24) 登山(7) 自行车(18) 铁人三项(22)

冰雪运动(47)

溜冰(12) 滑雪(35)

搏击运动(270)

拳击(124) 摔跤(98) 柔道(25) 跆拳道(23)

棋牌(43)

中国象棋(28) 围棋(15)

水上运动(614)

帆船(35) 水球(12) 游泳(373) 皮划艇(27) 赛艇(27) 跳水(140)

球类(2715)

乒乓球(369)  保龄球(51) 手球(26) 排球(253) 曲棍球(38) 棒球(238) 篮球(488) 网球(333) 羽毛球(239)足球(629) 高尔夫球(51)

马上运动(74)

赛马(57) 马术(17)

休闲运动(61)

太极拳(45) 气功(16)

田径运动(265)

径赛项目(181) 投掷项目(49) 跳跃项目(35)

交通

交通(443)

交通事故(15) 寒暄(21)  感谢(6) 求助(23) 确认订票(18) 订票(216) 询问交通情况(36) 谈论交通(108)

公共汽车(629)

买票(14) 入座(21) 寒暄(45) 询问(549)

出租车(2014)

付费(271) 寒暄(460) 感谢(8) 租车(475) 要求(613) 预定(187)

大使馆(231)

签证(231)

机场(1609)

中转(57) 寒暄(49) 接人(443) 更改班次(53) 机场信息(41) 检票(126) 求助(11) 行李(139) 订票(326) 误班(5) 购物(14) 购票(155) 退票(20) 送别(163) 道别(7)

海关(624)

关税申报(259) 寒暄(6) 海关检验(359)

火车(949)

不舒服的时候(50) 入座(94) 到达(40) 寒暄(31) 服务(642) 检票(20) 用餐(72)

火车站(584)

服务(26) 机场信息(13) 检票(76) 求助(15) 行李(73) 订票(10) 购物(49) 购票(292) 退票(16) 送别(14)

码头(42)

订票(29) 购票(13)

维修站(36)

感谢(3) 要求(33)

轮船(31)

不舒服的时候(6) 入座(11) 谈论天气(14)

途中(1237)

寒暄(119) 感谢(24) 求助(112) 照相(10) 问路(956) 食物(16)

飞机(665)

不舒服的时候(60) 服务(208) 寒暄(148) 入座(196) 用餐(51) 谈论天气(2)

地铁(175)

求助(17) 询问(158)

其他工具(40)

无轨电车(18) 缆车(22)

加油站(44)

加油(44)

商务

公司(1197)

办公室业务(139) 安排工作(6) 寒暄(5) 找工作(203) 拜访(25) 接待(217) 推销(54) 求助(14) 洽谈(297) 邀请用餐(15) 面试(195) 预约(27)

商务(3658)

业务预约(209) 保险(216) 信用证(30) 公司通知(6) 商品售后服务(117) 安排工作(25) 寒暄(26) 感谢(3) 找工作(12) 抱怨(63) 接待(424) 推销(24) 更改预约(12) 法律协助(125) 洽谈(2089) 财务(127) 邀请用餐(97) 难以通话(6) 面试(47)

表一(2).三语语料库标注集合(典型例句部分)

 

 

3.        与本资源相关的技术原理、应用方法等。

面向奥运的中英日三语语料库涉及的技术主要包括一下方面:

 

1)三语平行语料库的对齐加工技术

由于三语语料库的收集采用的是“汉英双语语料库+汉日手工翻译”的策略,所以三语语料库的加工任务主要是针对汉英双语语料库的自动对齐处理。为此,课题组实现了汉英句子自动对齐工具[1],并对收集到的汉英双语文本进行初步对齐 。随后,对句子自动对齐结果进行手工校正(3校)。最后,由汉英双语局对和汉日翻译最终形成了中英日三语句对。

 

2)标注加工

面向奥运的汉英日三语语料库的标注加工中的主要特色:语料标注中除了通常的文本属性之外,还指明了语言素材的语境、语用信息。由于语料库中收集的多为对话以及典型例句,语料标注中有针对性地增加了“场景”以及“主题”两个特征,来保留语言使用的语境和语用信息。突破了传统的平行语料库仅仅保留文本格式和对齐信息的框架。此外,语料库采用了目前极为流行的xml格式和Unicode编码来存放,较好地解决了多语平行语料的存储问题。

 

3)    资源存储方案

采用Unicode编码解决多文字的编码问题。采用xml为文件的存储格式,解决标注文本格式难以通用的问题。

 

 

参考文献



[1].杨沐昀, 李生, 赵铁军, 方高林, 吕雅娟. A Research on Bilingual Dictionary Based Sentence Alignment for Chinese English Parallel Corpus. 高技术通讯(英文版). 2002, 8(2)