论文部分内容阅读
当前,搜索引擎是互联网的一个重要组成部分,也是智能信息处理领域的一个研究热点问题。但是,随着信息时代的发展,数据规模也是爆炸性增长,非结构化信息越来越庞大。因此,海量规模和非结构化成为网络信息的两大特点,如何从大量的、非结构化的数据中快速地检索所需信息,成为本文研究的关键问题。信息检索通常是指对于文本的信息的检索,包括信息的建立、存储、组织结构、表现、查询、存取等各方面,其核心为文本信息的索引结构和检索模型。信息检索技术主要包括:倒排索引的建立、存储、信息检索的模型及方法、排序等。中文信息检索还涉及到分词技术等。针对中文信息检索相关技术的研究,本文的研究内容可以分为以下几个部分,首先,本实验以大量的古文献检索为研究对象,详细的描述了文本检索索引的组织结构,倒排索引的工作原理,索引存储的数据结构,以及索引构建的算法。提出了一种有效的基于单字符索引的倒排文件存储结构及其检索方法。根据实际需要,本文采用了分级索引的检索机制,设计并实现了三级索引,一级索引是字符定位到文本中的具体坐标位置,二级索引是将字符定位到包含该字符的文本文档中,三级索引是针对一级索引建立索引的索引,包括字符的字节位置及待截取字符长度,并且针对在不同层次的索引进行输入关键词进行检索,最后给出实验系统测试的综合结果。最终,本实验采用21亿字的古文献文本作为研究对象,改进了倒排索引构建算法,设计并实现了一种基于单字符的应用于古文献检索的倒排索引结构;另外,还建立了一种层级索引作为一种有效的信息检索机制。可解决大量的、非结构化的文本快速检索问题,最后进行实验系统测试,验证本实验系统设计和算法的可行性。