基于WEB的汉英平行语料库构建系统开发

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：fangduohui129

【摘要】

：

近年来,在平行语料库研究方面,专家学者越来越倾向于对语料库语言学的研究;由此,自然语言处理领域的专家学者们都意识到了高质量、大规模汉英平行语料库巨大的研究价值;另外,

【作者】

：

罗奋

【出处】

：

电子科技大学

【发表日期】

：

2014年01期

【关键词】

：

爬虫平行语料库 Lucene 汉英平行语料库

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,在平行语料库研究方面,专家学者越来越倾向于对语料库语言学的研究;由此,自然语言处理领域的专家学者们都意识到了高质量、大规模汉英平行语料库巨大的研究价值;另外,在比较语言学研究等领域,汉英平行语料库也发挥着重要作用。但汉英平行语料库在规模和质量上都远不及单语语料库。随着互联网的发展,不同语言间的交流变得日益频繁,双语语料库(Bilingual Corpus),已经成为机器翻译、机器辅助翻译以及翻译知识获取研究不可或缺的重要资源。双语语料库在机器翻译研究中的作用已日趋明显,但作为一项重要的语言资源,双语平行语料库的系统性构建在中国国内尚未得到充分的关注,基本上还停留在理论之上。本文介绍了一个大规模汉英双语平行语料库的构建系统。研究思路是利用互联网上存在的海量多语言文本资源,通过网页的内容分析和链接分析,实现了一个双语语料挖掘的自动获取系统,采用B/S结构,分两个子系统,即爬虫系统和索引系统,子系统之间松散耦合,运行时相互间无影响;网页爬虫自动的将从互联网爬取到的符合条件的网页,经过处理后存入数据库,再用Lucene对数据库中的数据进行索引,用预先定义的规则对索引进行查询,其结果就是平行语料。系统主要处理的语言是中文和英文这两种语言,但系统中的语言今后是可以灵活配置的,在此基础上稍加修改,就可以配置构建任意两种语言的平行语料库。本文中的汉英双语平行语料库构建系统,开发平台使用Myeclipse,前台页面开发选用Jsp动态网页技术,后台数据库使用开源的MySql,采用MVC设计模式。目的是通过学习国内外前人的相关研究成果,研究使用最新的动态网页开发技术实现“汉英平行语料库自动构建系统”的方法和过程,可以为今后收集大量的汉英平行语料,实现汉英在线翻译提供语料支持。本系统被用作汉英语料库的自动构建,今后还可在此基础上开发汉维语料库自动构建系统。

其他文献

白帝城游记

<正> 薄暮,晚霞将江水映成一片灿烂的鲜红。"三峡游一号"引吭高歌,只听船上一声喧嚷:白帝城到了。我赶紧走出船舱,只见右边的峻岭中泻出一条江来,江上跨着一座高高的桥。桥的

期刊

白帝城白帝庙彝陵之战公孙述

电火花加工中的拉弧现象研究与对策

电火花加工中的电弧放电破坏了加工过程的稳定性,直接影响到加工件的表面质量和表面机械性能,电弧烧伤严重时会造成工件的报废。因此,在加工中应根据加工的实际情形采取适当

期刊

电火花加工原理拉弧现象解决措施

换挡拉索对变速器啸叫噪声影响的研究

变速器啸叫噪声可以通过换挡拉索传递到车内,影响车内乘员的舒适感觉。用切断传递路径的方法研究了换挡拉索对变速器啸叫噪声的影响,并结合实际的试验,优化换挡拉索端部的结

期刊

变速器啸叫噪声换挡拉索传递路径

中药治疗精液迟缓液化症48例

期刊

前列腺炎／中药疗法不育症.男性／病因学精液

BIM背景下工程造价专业双创人才培养模型研究

BIM作为建筑信息化的重要载体之一,对工程造价人员专业能力提出了新要求。结合BIM双创人才对工程造价专业学生培养新要求,建立BIM+基于工程造价管理流程的课程和BIM+工程造价

期刊

BIM专业创新工程造价人才培养

挖掘机液压系统的现状与前景研究

挖掘机作为我国工程机械的主力机种,被广泛应用于各种各样的施工作业中。挖掘机产品的核心技术就是液压系统设计。介绍了国内外挖掘机液压系统研究领域近年来的概况以及发展

期刊

挖掘机液压系统开、闭式系统节能控制操纵性电-液控制系统

人事档案管理改革应走向“四化”

$T人事档案仍是现代社会公共管理的一种重要信息载体。$$ 人事档案管理改革要着重突出档案的信息记录、信用凭证功能，走向契约化、电子化、社会化和信用化管理，更有效地为人

报纸

重大行政决策程序法治化研究

重大行政决策程序法治化是指通过程序立法来规范重大行政决策权的行使,但是在程序立法的过程中,存在着中央统一的行政程序法的缺失以及地方文件中调整范围不明确,概念不统一

期刊

重大行政决策法治化程序规范

识字教学在初级阶段对外汉语汉字教学中的应用研究

在对外汉语教学中汉字教学一直是一个难以突破的难点,汉字也是外国学生学习汉语的最大障碍。为解决这个难点,从上个世纪九十年代后期开始就有研究者对对外汉语汉字教学进行了

学位

对外汉语汉字教学识字教学应用研究

数字时代编辑的传播理念与媒介素养探析

数字时代传媒产业模式和内容发生了新的变化,编辑的传播理念和媒介素养受到挑战,编辑不再是单一的稿件把关人,而是转向知识传播,工作重心由重出版转向重传播效果。数字时代提

期刊

数字时代编辑传播理念媒介素养

基于WEB的汉英平行语料库构建系统开发

与本文相关的学术论文