文本快速检索方法研究与工程实现优化

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户：a364444252

【摘要】

：

当前,搜索引擎是互联网的一个重要组成部分,也是智能信息处理领域的一个研究热点问题。但是,随着信息时代的发展,数据规模也是爆炸性增长,非结构化信息越来越庞大。因此,海量

【作者】

：

朱小妮

【出处】

：

昆明理工大学

【发表日期】

：

2018年01期

【关键词】

：

信息检索倒排索引检索分级索引

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当前,搜索引擎是互联网的一个重要组成部分,也是智能信息处理领域的一个研究热点问题。但是,随着信息时代的发展,数据规模也是爆炸性增长,非结构化信息越来越庞大。因此,海量规模和非结构化成为网络信息的两大特点,如何从大量的、非结构化的数据中快速地检索所需信息,成为本文研究的关键问题。信息检索通常是指对于文本的信息的检索,包括信息的建立、存储、组织结构、表现、查询、存取等各方面,其核心为文本信息的索引结构和检索模型。信息检索技术主要包括:倒排索引的建立、存储、信息检索的模型及方法、排序等。中文信息检索还涉及到分词技术等。针对中文信息检索相关技术的研究,本文的研究内容可以分为以下几个部分,首先,本实验以大量的古文献检索为研究对象,详细的描述了文本检索索引的组织结构,倒排索引的工作原理,索引存储的数据结构,以及索引构建的算法。提出了一种有效的基于单字符索引的倒排文件存储结构及其检索方法。根据实际需要,本文采用了分级索引的检索机制,设计并实现了三级索引,一级索引是字符定位到文本中的具体坐标位置,二级索引是将字符定位到包含该字符的文本文档中,三级索引是针对一级索引建立索引的索引,包括字符的字节位置及待截取字符长度,并且针对在不同层次的索引进行输入关键词进行检索,最后给出实验系统测试的综合结果。最终,本实验采用21亿字的古文献文本作为研究对象,改进了倒排索引构建算法,设计并实现了一种基于单字符的应用于古文献检索的倒排索引结构;另外,还建立了一种层级索引作为一种有效的信息检索机制。可解决大量的、非结构化的文本快速检索问题,最后进行实验系统测试,验证本实验系统设计和算法的可行性。

其他文献

浅析小学英语听力教学

【中图分类号】G623.31　　一直以来小学英语听力教学没有得到充分重视，随着我们国家的逐渐强大以及社会的发展趋势，英语的重视方向也在慢慢的发生着改变，特别是小学阶段，英语教学更注重“听”“说”领先，“读”“写”跟上。所以，提高听力不仅有利于说、读、写这三项技能的发展，而且能为开展日常交际打下坚实的基础。能否恰当地采取有效的听力教学方法和策略来指导课堂教学，不但是关系到听力训练成败的重要因素，也

期刊

英语听力教学小学阶段发展趋势英语教学日常交际课堂教学教学方法听力训练

解答诗歌题的六个提醒

高考语文试题中，古代诗歌鉴赏是必考之题，且分值较高，但此题学生得分较低，其关键是没有弄清诗歌各类型题的作答步骤从而导致失分。不同的类型有不同的作答步骤，所以要依类型而答，才能得到较高的分数。下面提醒同学们六种类型的作答步骤，以供参考。　　提醒一：托物(人)言志型鉴赏题要答出“表层”及“深层”两方面　　托物言志型及咏史型的古诗，其所涉及的情感一般分为两个方面，表面上看，是对某物及某个历史人物的感叹，

期刊

古代诗歌鉴赏解答高考语文试题分值学生分数同学

GC特检公司竞争战略研究

国家政策主导下的行业改革,激烈的市场竞争,强劲的资源掠夺、人才抢夺正在特种设备检验检测企业间轮番上演。政策干预下开放了许多新的市场和机会,从原有地方检验机构转型而来的GC特检公司面临着业务营收水平较低、市场份额少、市场竞争力低下的困境。在激烈的竞争环境下,盲目的坚守固有市场已不能支撑企业长久的发展,行业改革的同时,GC特检公司还需要积极应对环境变化和技术变革带来的巨大影响,探索发展战略,寻求新市场

学位

竞争战略差异化战略核心竞争力特种设备检验检测

利用影响方程计算弯曲变形

提出了一种利用影响方程求解弯曲变形的新方法.首先,利用结构力学影响量的概念,建立影响方程,然后计算相应的影响量,最后由叠加原理求出变形.于传统方法相比,在计算行列载荷

期刊

影响方程弯曲变形计算方法

文本快速检索方法研究与工程实现优化

其他学术论文