论文部分内容阅读
近年来,在平行语料库研究方面,专家学者越来越倾向于对语料库语言学的研究;由此,自然语言处理领域的专家学者们都意识到了高质量、大规模汉英平行语料库巨大的研究价值;另外,在比较语言学研究等领域,汉英平行语料库也发挥着重要作用。但汉英平行语料库在规模和质量上都远不及单语语料库。随着互联网的发展,不同语言间的交流变得日益频繁,双语语料库(Bilingual Corpus),已经成为机器翻译、机器辅助翻译以及翻译知识获取研究不可或缺的重要资源。双语语料库在机器翻译研究中的作用已日趋明显,但作为一项重要的语言资源,双语平行语料库的系统性构建在中国国内尚未得到充分的关注,基本上还停留在理论之上。本文介绍了一个大规模汉英双语平行语料库的构建系统。研究思路是利用互联网上存在的海量多语言文本资源,通过网页的内容分析和链接分析,实现了一个双语语料挖掘的自动获取系统,采用B/S结构,分两个子系统,即爬虫系统和索引系统,子系统之间松散耦合,运行时相互间无影响;网页爬虫自动的将从互联网爬取到的符合条件的网页,经过处理后存入数据库,再用Lucene对数据库中的数据进行索引,用预先定义的规则对索引进行查询,其结果就是平行语料。系统主要处理的语言是中文和英文这两种语言,但系统中的语言今后是可以灵活配置的,在此基础上稍加修改,就可以配置构建任意两种语言的平行语料库。本文中的汉英双语平行语料库构建系统,开发平台使用Myeclipse,前台页面开发选用Jsp动态网页技术,后台数据库使用开源的MySql,采用MVC设计模式。目的是通过学习国内外前人的相关研究成果,研究使用最新的动态网页开发技术实现“汉英平行语料库自动构建系统”的方法和过程,可以为今后收集大量的汉英平行语料,实现汉英在线翻译提供语料支持。本系统被用作汉英语料库的自动构建,今后还可在此基础上开发汉维语料库自动构建系统。