基于GB18030的多语种全文检索系统设计与实现

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:agsxuming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息社会的不断发展,计算机网络应用的不断深入,互联网已经成为人类获取信息的最重要途径之一。在信息爆炸时代,人们面对的烦恼不再是信息资源的贫乏而是资源过剩甚至于泛滥。 如何在信息海洋中找到准确有用的信息已不是一个新的课题。 全文检索技术因此应运而生。全文检索技术是将海量的非结构化数据通过建立索引,检索的方式来迅速搜索定位要查找的信息。 信息的内涵比较大,这里特指计算机中的文本信息。即文字语言表达的信息。当提及到多语种或者多文种文字信息时,人们不禁会想到实现世界上所有文字的统一编码Unicode。然而,自2000年我国强制性标准GB18030推行之后,理论上要实现多语种非Unicode不能用的论断就此推翻。 本文对多语种全文检索中所涉及的关键技术包括字符编码、汉语分词、索引架构、检索算法等进行了探讨和研究。为了能够支持我国独立研制的编码字符集标准,实现在该领域计算机处理的自主权,本文提出了利用GB18030为编码基础来设计与实现全文检索系统。使得多语种信息处理不再依赖于Unicode,支持我国自主知识产权,也使得我国中文信息处理技术更上一个台阶。 本文主要分以下几部分内容: 一.常用字符编码的概述和GB18030特点的分析 二.多语种分词技术的概述和实现 三.以倒排索引为基础的Clucene架构的分析和内部代码剖析 四.如何利用Clucene架构来扩展实现基于GB18030的全文检索组件技术。 五.对基于GB18030的多语种全文检索系统的性能统计和效率评估。
其他文献
本文对我国大批量定制生产技术体系结构展开研究,并着重研究了异构协同设计技术。研究内容如下。 (1)为了支持从集成化设计到客户化定制,从敏捷化配套生产到个性化售后服务
近年来,无人机技术广泛的应用于军事和科研领域,网络化的无人机应用对广域侦察、跨障碍监控等任务有较好的适应性。执行任务时,在无人机反馈的各类信息中,视频流在实时性和直
本文主要研究基于小波变换的图像逆半调方法。因为小波具有多分辨率分析的特性,能够区分图像的高频与低频部分,所以适用于逆半调处理。小波变换通过去除高频半调噪声,同时最大程
自动并行化技术的研究是随着并行计算机的出现而开始的,如何用好并行处理系统以解决大规模科学计算问题是当前计算机科学面临的一个重要课题,开发高效的并行软件是解决问题的
跨越语言障碍,实现人们不同语言之间的自由交流,是人类自古以来的一个梦想。早在50年代和60年代机器翻译就吸引了相当可观的资金,尤其是军备竞赛在1957年苏联第一颗人造地球卫星
现如今,以CPU+GPU为主的异构模式被广泛的使用,06年CUDA编程架构的推出大大提高了GPU的可编程性,各领域内使用CUDA进行加速的应用程序大量出现。CUDA的架构中引入了STMD的概
无线自组网中各个节点可以任意的移动,导致节点间传输路径的频繁中断,大量的重路由操作消耗了有限的网络资源,降低了路由协议的性能。如何在这样的网络中选择一条稳定的路径,最大
近几年来,云计算技术得到飞速发展,互联网在线业务的用户也不断增多,导致大型企业的数据中心内部流量大幅增长、网络带宽资源竞争激烈。数据中心现有的转发机制是通过静态哈
随着全球信息化进程的不断深入,研究和实现基于网络的电子商务己成为目前学术界和商业界的热点问题之一。其中,安全问题日益成为电子商务发展道路上的一大障碍,为了保证电子商务
在现代MPI并行应用中,聚合通信操作被广泛使用。聚合通信操作不仅在科学计算上占据大部分时间消耗(有时可高达70%),同时也为程序员提供更便捷编程接口。然而软件实现的聚合通