论文部分内容阅读
随着信息社会的不断发展,计算机网络应用的不断深入,互联网已经成为人类获取信息的最重要途径之一。在信息爆炸时代,人们面对的烦恼不再是信息资源的贫乏而是资源过剩甚至于泛滥。
如何在信息海洋中找到准确有用的信息已不是一个新的课题。
全文检索技术因此应运而生。全文检索技术是将海量的非结构化数据通过建立索引,检索的方式来迅速搜索定位要查找的信息。
信息的内涵比较大,这里特指计算机中的文本信息。即文字语言表达的信息。当提及到多语种或者多文种文字信息时,人们不禁会想到实现世界上所有文字的统一编码Unicode。然而,自2000年我国强制性标准GB18030推行之后,理论上要实现多语种非Unicode不能用的论断就此推翻。
本文对多语种全文检索中所涉及的关键技术包括字符编码、汉语分词、索引架构、检索算法等进行了探讨和研究。为了能够支持我国独立研制的编码字符集标准,实现在该领域计算机处理的自主权,本文提出了利用GB18030为编码基础来设计与实现全文检索系统。使得多语种信息处理不再依赖于Unicode,支持我国自主知识产权,也使得我国中文信息处理技术更上一个台阶。
本文主要分以下几部分内容:
一.常用字符编码的概述和GB18030特点的分析
二.多语种分词技术的概述和实现
三.以倒排索引为基础的Clucene架构的分析和内部代码剖析
四.如何利用Clucene架构来扩展实现基于GB18030的全文检索组件技术。
五.对基于GB18030的多语种全文检索系统的性能统计和效率评估。