面向计算机辅助翻译的乌兹别克语一汉语平行语料库构建与应用

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:shihaiquanhanhan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:论文采用了外语教学、语料库建设及机器辅助翻译的相关理论和方法,针对新闻领域乌汉平行语料库的构建及其在乌兹别克语教学中应用的问题进行了研究。在研究过程中,分析了乌汉双语语料对齐和语料库翻译实例的调用特点,整合自编乌汉双向新闻词典、乌语网络新闻新闻及乌国防部新闻互译文本的相关语料,建立包含词、句级别的平行语料库,面向常用机辅翻译软件建立了翻译记憶库和术语库。通过本项目研究,在理论上揭示了乌汉平行语料库构建的方法论基础,阐明该语种语料库语言教学工作的促进作用,建立可行的实施方案,在应用上将推动了中亚语种乃至非通用语种平行语料库建设的发展。
  关键词:机器辅助翻译;平行语料库;乌兹别克语
  中图分类号:TP391 文献标识码:A
  文章编号:1009-3044(2019)30-0101-03
  1研究现状及意义
  通常来说,平行语料库是原文与译文按照句子为对齐单元平行对应的双语语料库,可有效用于语言对比研究、翻译研究、翻译教学、翻译技术开发、双语词典编纂等语言学以及自然语言处理研究领域。平行语料库的构建研究开始于20世纪90年代,目前国内外已经建成了较大规模、多种类型、不同用途的双语平行语料库。在国内,国家语委、北京大学、中科院、哈尔滨工业大学、外语教学与研究出版社都分别建有面向不同应用方向、规模不同的英汉平行语料库。除了英汉平行语料库之外,北京外国语大学还组织构建了包含分库构建了汉英、汉日语言对应的大型双语平行语料库嘲。语料库只有在应用中才能体现其真正的价值。平行语料库不仅可以用于语言教学、翻译研究、词典编撰等语言学研究领域,也是自然语言处理、知识工程和跨语言信息检索的基础性资源,其构建意义和应用价值十分重要。
  机器辅助翻译(Computer-assisted Translation,CAT)是机器翻译研究领域的重要分支。一般来说,使用机辅翻译技术能够使译员的翻译效率提高两到三倍。在机辅翻译过程中,CAT软件只是索引、调用和匹配平台,术语库和翻译记忆库才是真正的实质内容与核心。而平行语料库是术语库(TB)(词级别对齐语脊斗)和翻译记忆库(TM)(句段级别对齐语料)构建的根本基础。机器辅助翻译技术在国外已经有较长的发展历史,开发计算机辅助翻译软件的企业有很多,目前在业界比较著名的有塔多思(Trados)、DejaVu、TransStar、Wordfast、MemoQ、WordFisher、Ome-gaT等。在国内,通过对国外计算机辅助翻译软件开发的学习与借鉴,从事机器辅助翻译的技术研究和产品开发近年来得到了长足的发展,目前较为有代表性的包括雅信翻译平台(cATs)、雪人CAT、文婕(WinMAT)、北京永邦博典(ITM)等。
  虽然平行语料库建设和计算机辅助翻译研究蓬勃发展,但也存在很多现实问题:从技术层面来说,多数CAT软件产品对于通用语种能够较好地支持,而对于非通用语种普遍支持不够,非通用语种翻译记忆、术语管理和语料对齐等CAT核心技术都没有很好的解决方案。从内容层面来说,在英语、日语、乌兹别克语等通用语种领域,大规模平行语料库已经普遍建立,相关研究屡见不鲜;然而,对于非通用语领域,平行语料库的建立还处于起步阶段,无论从规模还是质量上还说同前者都存在巨大的差距,还有很多的基础性工作有待完成。
  构建乌兹别克语汉语平行语料库的意义在于:首先,中国与中亚各国的交往不断加深,层面不断深入,由于长久以来对中亚非通用语种没有予以应有的重视,相关语言翻译保障手段,如工具书、电子词典、翻译软件等长期处于稀缺状态,乌兹别克语人才培养的质量和水平急需提升。使用双语平行语料库和机器辅助翻译的相关技术,来有效促进乌兹别克语教学与人才培养的整体水平,满足国内该语种人才紧缺的现实需求。其次,填补乌语新闻平行语料库的空白,在应用上推动国内中亚语种乃至非通用语种平行语料库建设的发展。最后,将平行语料库与传统语言研究手段有机结合,促进乌兹别克语基础教学工作地发展,提升外语人才培训水平。将语料库运用于乌语机辅翻译,探索相应的可行性方案,研制CAT软件系统,望能抛砖引玉,为其他非通用语种相关研究提供思路。
  2语料库构建
  2.1语料选择
  在建设语料库之前,语料的代表性是首先需要考虑的问题。当前乌兹别克语相关的新闻语料主要来自互联网,总体来说规模较小,乌汉双语的新闻互译文本更为稀缺,可以采集的数据十分有限并且质量参差不齐,在采集和处理语料时需要设定一定的标准。在这里,我们首先需要重点考虑语料来源的权威性、文本质量、语料类别平衡这三个问题。根据上述标准,乌兹别克语一汉语平行语料库在选取新闻语料的基本原则为:第一,首选乌兹别克斯坦官方网络媒体发布的新闻语料,其次是其他新闻网站、本地报刊等其他资源。第二,对所采录语料进行文字统一、文本清理、错误筛查等质量评估,质量低劣文本不予收录。第三,实行均衡采样原则,将乌兹别克语新闻文本来源设定为两大类,即新闻类f重要新闻事件、新闻活动报道、与新闻活动相关的政治活动等等)和新闻文献类(学术著作、说明书、协定等等)。第四,单篇文本的规模设定为500词至3000词之间,过少或过多则不予收录。第五,针对乌兹别克语一汉语互译新闻语料数据稀疏或难以收集的问题,在选取优秀乌兹别克语新闻语料自行翻译,再进行校对后收录。上述五条原则的主旨是保证所选语料的代表性和质量,以确保后期基于该平行语料库开展的机辅翻译研究及应用取得较好效果。
  2.2语料电子化
  语料的来源主要为乌兹别克斯坦官方新闻网站,网络文本主要涉及文字校对与格式整理,相对而言比较简单。但是经初步查证发现,公开发布的乌兹别克斯坦新闻规模不大,而网络上的高质量的乌兹别克语一汉语互译资源更加稀缺。正因如此,在语料库的实际建设过程中,语料库中很大部分乌兹别克语新闻资料是通过翻译后经过校对后进行收录的,虽然花费了大量的人力工作,但确保了对齐语料的质量。   语料的另一个来源是乌兹别克语新闻报刊等印刷制品。为了节省印刷文字转写工作所花费的大量时间,本研究采用了印刷品高清扫描后,使用文字识别软件进行识别,最后进行文字和格式校对的方法。当前的国内OCR识别软件主要针对中文与英文,对于乌兹别克文的识别并不支持。课题组采用软件Abbyy Finereader对扫描文本进行了识别,该软件不仅对乌兹别克文有可以接受的识别效果,可以达到75%左右的正确率。在识别后,通过手工进行文本的校对和整理,纠正格式和识别错误。Abbyy Finereader软件对乌兹别克语的识别正确率可以达到88%以上,大大提高了新闻报刊的文字转写效率。
  2.3语料对齐
  语料对齐是指将原文语料与译文语料分别保存后,并使两个文本中的语料按照句与句的关系逐条对齐,这是所有平行语料库构建过程中最重要的步骤。目前,句与句对齐软件较多依附于计算机辅助翻译(cAT)软件中,使用对齐工具可以将现有的原文与译文进行对齐排列,生成双语文件,及翻译单元,创建翻译记忆数据,将之导入到CAT软件中调用,从而达到重复利用翻译资源提高翻译效率的目的。自动对齐模块会根据句子结束标记把原文和译文自动拆分为句段,并且把原文句段和译文句段自动匹配对齐,但对齐结果存在错误,类似的对齐模块较为典型的包括Trados的Winalign模块,Dejavu的AlignmentWizard模块,Memoq的对齐工具,以及近年来进步迅速的雪人CAT软件中基于词库和句相似度计算的对齐工具。在对齐过后的平行语料库构建中,构建人员需要检查这些对齐是否正确,对错误对齐进行必要调整与修改。在修订后,再将这些对齐好的平行句段导出到包含双语信息的文本中,然后可以储存在翻译记忆库用于计算机辅助翻译。虽然对齐工具的选择很多,但总体来看这类工具处理文本的准确率并不太高,后期人工介人调整是势在必行的。除此之外,由于乌汉语言在表达、句式方面的差异,实际的翻译过程中并非全部以句为单位,翻译关系存在一对多或多对多的情况。
  我们采用了Dejavu计算机辅助翻译软件的对齐工具Align-ment Wizard,其优势在于支持多类型文本导入导出、自动对齐算法优良、最终构建的翻译记忆库可转换成多种格式。在De-javu创建的对齐项目中,可以方便地合并(join)、分割(split)、删除(delete)、上移(moveup)、下移(move down)句段,并可将选中词、短语加入自建的术语库(TB),使用非常方便,并支持多种类型文本的导入导出。详见图1。
  对于乌兹别克斯坦新闻领域乌汉平行语料库的对齐工作,我们首先由人工完成篇章与篇章对齐的工作,之后使用DejavuX2的AlignmentWizard工具初步实现了句与句的对齐,再通过人工校对排查,最终达到句子层级的对齐。在句对齐工程中,收集领域词汇加入Dejavu术语库。最后,通过人工反复进行检验,以确定全部文本已经达到句与句对齐的效果。在此之后,将对齐文本导入自建CAT翻译记忆库(TM)。从TM中可以导出Excel表对齐文本,最后形成单语文本对应的txt文件用于平行语料库。
  3语料库的机器辅助翻译应用
  3.1短语(短语)级对齐语料
  我们收集整理了大量与乌兹别克斯坦和新闻领域相关词汇短语,共计29412条,约10.2万字。收词工作前期共收词50000余条,后经过精心筛选和考量,精简到30000余条,其中外汉部分约14000条,汉外部分约15000条,每词条尽量收全,另外适当选收了部分常用词语和词组搭配,内容包括新闻领域的一般用语和部分非常用词语。短语语料的特点有以下三点:第一,收词较为合理,覆盖面广,不仅收录了较为常用的新闻词语,还涉及了包括科技、人文、医学、金融等诸多领域的专业术语。第二,新词多,收录整理过程中确保了语言材料的科学性和新鲜性。构建语料库时使用Excel编辑,之后转为TXT对齐文本。
  3.2CAT翻译记忆库及术语库的构建
  本项目翻译记忆库中的数据来源有两个,第一是通过Alignment Wiz-ard工具整理篇章语料后录入的对齐语料,第二是手工构建的Excel构建的对齐语料。使用Dejavu的文件导入功能,可将Excel文本中的对齐文件直接导人到自建的翻译记忆库中,供CAT项目使用。术语库构建方法与之相似:第一,AlignmentWizard工具可将句对中的短语对、词对导入TB;第二,借助Excel表文件导人术语。Dejavu翻译记忆库和术语库可以通过格式转换,普遍应用与各类CAT软件中。
  3.3篇章、句子级对齐语料
  我們供收集和翻译整理与乌兹别克斯坦和新闻领域相关乌汉文本共108对,216篇,约20万字语料。语料库的突出特点为:首先,语料库专业性强。本语料库仅涉及新闻领域语料,同时主要针对对象国乌兹别克斯坦,同时新闻按照类别平均采样,突出了语料的代表性特征;(2)语料规模基本满足研究需要。从绝对字(词)数量上看,该库的语料数量并不是很大,但是就专门类别语料库而言,该库的语料数量足以达到其设计的研究及用目标,可以较好地用于计算机辅助翻译研究;(3)选材质量高、代表性强。新闻选材及分类标准设计细致且完善,保证所选语料的高质量、均衡性和代表性,为后期良好的研究及应用效果打好了基础。语料库句对齐示例见图2。
  4乌汉新闻平行语料库的应用前景
  第一,基于乌汉平行语料库的机器翻译研究。平行语料库对机器翻译准确率、处理性能和效率提升的影响是十分明显的,基于语料库的机器翻译系统包括基于统计和基于实例的两种类型,最重要的数据资源就是利用平行语料库。对于非通用语言中亚乌兹别克语来说,平行语料库资源十分宝贵。本文构建的乌汉平行语料库可以直接作为训练数据语料用于统计机器翻译应用中。同时,平息语料库由可以用于获取机用翻译词典、翻译模板的等翻译知识,较好地提供用于机器翻译的基础资源。
  第二,基于乌汉平行语料库的跨语言信息检索。随着“一带一路”倡议的广泛推进,中国与中亚国家之间的多层次交流更加广泛和频繁,面向中亚的多语种信息检索产生的语言障碍日益突出,只有通过跨语言信息检索技术来突破障碍。乌汉新闻双语平行语料库的构建为我们提供了内容丰富合理的翻译资源,在消除歧义方面乌汉平行语料库比语言词典、机器翻译等技术更具优势,与二者结合不仅提高翻译质量,而且提升了速度和精度,对推动跨语言信息检索将起到关键作用嘲。
  第三,基于平行语料库的语言及翻译研究。乌汉平行语料库具有鲜活的语料,在新闻翻译教学中,这些教学素材的应用无疑有助于提升学习者对对象国新闻文化的了解,亦有助于增强学习者跨文化交际能力。因此,该库的建设与应用对培养立足学科建设工作、面向中亚方向翻译人才具有极大的推动作用。本语料库的主要使用者为外语院校及外语培训机构,可为乌语新闻处理和新闻外交人员提供翻译语料支持,能为中乌新闻交流合作活动初步提供统一的新闻翻译标准及文本交换格式,并且可以以此为基础开发一系列新闻信息处理产品等。
其他文献
摘要:“互联网 ”环境下,大学生在学习过程中,能够使用的资源内容更加丰富,学习过程更加自主。在创新英语写作教学过程中,不能局限于传统的语法词汇和模板技巧教学,要注重培养学生实践应用能力和语言创新意识。通过充分发挥“互联网 教学”的多样优势,充实写作素材,完善互相评价,使学生能在趣味、生动的教学环境中,自主查找创作话题,真正享受写作过程,重构写作教学模式。该文从大学英语写作教学问题出发,结合“互联网
摘要:为更好培养体育院校体育人才计算机应用能力,该文以办公软件高级应用课程为例,引入案例教学模式,结合课程实操性特点,以学生兴趣点结合时代热点为切入点设计教学内容案例,促成激发学生的参与课堂的热情,发挥计算机公共课程锻炼信息化技能作用,促进学生素质更为全面地发展。  关键词:案例教学;体育院校;办公软件;教学探索;公共课程  中图分类号:G642 文献标识码:A  文章编号:1009-304
摘要:高职院校是以培养创新型、技能型人才的高等教育,在教学中更加尊重学生的个性化发展和学习意愿。该文以信息化技术为前提,从信息化教学现状、智慧课堂的框架体系、教学中的优势及所面临的问题对其在高职教学中的应用进行了实践研究。  关键词:信息化;智慧课堂;高职教育  中图分类号:G642 文献标识码:A  文章编号:1009-3044(2019)25-0114-02  国务院2017年印发的《新
摘要:为通过应变片设计一个可以自行调节量程并使用的压力传感器,使其达到能精确测量压力,并通过模数转换,使其可直接在LCD屏上显示输出数值,本文设计了一个基于AT89C52的压力测试系统。该压力传感器能够对小量程范围内的压力进行准确測量,并可通过调节增益大小,来控制传感器的量程。  关键词:压力传感器;数模转换;LCD屏  中图分类号:TP311 文献标识码:A  文章编号:1009-3044(
摘要:电子海图软件是航海安全的基础支撑软件,广泛运行于嵌入式系统、Windows、Linux等多种操作系统中。该文针对电子海图软件在多操作系统平台下开展可重用设计,对电子海图软件进行分层架构设计,有效支撑电子海图软件基础层、功能层、操作系统适配层系统解耦,实现了电子海图软件功能构件集、基础软件构件集清晰划分,对减少产品部署周期、控制成本都有着重要的意义,在实践中取得预期的效果,解决了电子海图软件在
摘要:在中职动漫专业教学中,运用“引入企业真实项目教学法”,不仅突破了传统教学的局限性,解决了传统教学与企业实际需求脱节的问题,而且学生通过亲自参与企业真实项目的全过程制作,全面掌握项目制作每一个环节的具体要求和操作技能,真正做到学以致用与企业无缝对接。  关键词:企业真实项目;动漫专业;教学运用  中图分类号:TPG424 文献标识码:A  文章编号:1009-3044(2
摘要:虚拟现实技术能模拟产生一个三维空间的虚拟世界,给使用者提供视、听、触等感官模拟。基于虚拟现实技术开发的课程资源(Curriculum Wisdom)具备直观、可操控、可进化、易分享的智慧特点。该文以实际教学案例为抓手,研究基于主流三维CAD软件开发具备智慧属性的课程资源的途径,并对其在课堂教学的实践使用进行探讨。  关键词:虚拟现实;智慧;课程资源  中图分类号:G71 文献标识码:A  文
摘要:基于当前现代学徒制主要是通过校企合作以及教师与师傅的联合讲授,并进一步能够实现学生理论和技能一体化的学习模式。除此之外能够融合工学结合,校企合作,订单培养等多种方式,这对于学生的职业素养以及职业能力来说起着十分重要的作用。在本次研究中我们以计算机网络技术专业的学生作为研究对象,对基于现代学徒制背景下该专业学生教育改革进行深入分析。  关键词:现代学徒制模式;课程体系;构建;实践;计算机网络技
摘要:机器博弈是人工智能的头部领域。该文以六子棋为例,重点介绍了搜索策略和估值函数的设计,主要介绍了博弈树,极大极小值算法,α-β剪枝,MCTS以及基于“路”和“棋型”结合的估值函数。  关键词:六子棋;搜索算法;估值函数  中图分类号:TP391 文献标识码:A  文章编号:1009-3044(2019)34-0053-02  1 概述  作为二十一世纪三大尖端技术之一的人工智能,其头部研究领域
摘要:现阶段,我国银行业的行业规模越来越大,在银行内部管理上应用IT项目管理信息系统已成为必然趋势。该文在了解当前建设银行项目管理信息系统现状的基础上,对系统的需求进行分析,同时,结合建设银行IT项目管理信息系统的设计方案,对系统的设计和实现进行研究。  关键词:建设银行;IT项目管理信息系统;系统需求;系统设计;系统实现  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2