分布式中文全文检索技术的研究与实现

来源 :中南民族大学 | 被引量 : 0次 | 上传用户:wangying2880
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,搜索已成为从互联网上获取信息的一种主要手段,通过GOOGLE、百度等互联网搜索引擎,人们可以方便的从浩如烟海的互联网中寻找自己需要的信息。以GOOGLE为例,它搜集了数以亿计的网页,存储容量为T级,人们通过关键字从中检索到自己需要的信息,这一类搜索引擎通常被称为通用搜索引擎,它的数据采集对象是互联网页,它的应用对象是全世界的所有网民,它的服务方式是提供给用户关键字检索结果后服务即完成。另一方面,企业、组织机构内部信息化建设浪潮催生了大量的信息内容,其中大多数的数据以文件、邮件、图片等非结构化形式存放在企业内计算机系统中的各个角落,而传统的结构化数据库无法满足这些非结构化信息的存储、检索和处理要求,针对这一类应用出现了一种特定的搜索引擎――企业搜索引擎。它往往不局限于关键字搜索后就完成服务,往往还提供分类、聚类等后期处理和挖掘。而全文检索技术是实现企业搜索引擎的核心环节,本文将对其进行系统的阐述,并深入的探讨全文检索的各项技术和基本原理,详细地分析全文检索系统的结构和索引的组织、库结构和创建过程,提出了优化索引创建过程的方法。对检索技术、排序算法和中文分词技术进行了重点研究和总结,并针对词典分词法的不足,使用了改进的基于三数组Trie索引树匹配算法,充分实现了“智能分词”的原则。然后讨论了分布式索引的分布策略,以及基于索引数据分布上的查询策略。本文最后对本系统全文搜索引擎的特点及实现进行详细的论述,并按设计完成具体功能的实现,实际检测运行效果较好。
其他文献
随着计算机的普及和企业内部数字化的深入,越来越多的机密信息以电子文档的形式存储。但由于电子文档本身的不安全性,使其在传播的过程中很容易被非法复制和篡改,而且不留任
互联网的信息量呈爆炸趋势增长,增强了人们对搜索技术的依赖性。搜索引擎是开启网络知识殿堂的钥匙,获取知识信息的工具。但随着网络技术的飞速发展,获取更加准确、更加详细、更
在计算机视觉领域,对三维重建算法的研究是重点方向。通过这项技术,可实现将现实存在的物体重建出其对应的三维模型。它在医疗、三维测量、机器人导航以及文物保护等不同领域
钢丝轮胎因其舒适耐磨、高速缓冲、安全可靠等优点,成为近年来轮胎制造领域发展的主流。钢丝阵列作为轮胎的骨架材料,直接影响后期产品的支撑负荷和运行性能,逐渐成为生产中
目的 探究分析全膝关节置换术中髌下脂肪垫切除对临床疗效的影响.方法 将我院所在科室收治的84例全膝关节置换术患者进行研究,根据入院时间分为两组,其中,观察组42例,采用全
伴随着信息技术的高速发展,以计算机和网络为支撑的电子阅览室应运而生并逐渐成为人们交流信息的重要途径之一。开发简洁、高效、安全的电子阅览室管理系统对规范电子阅览室
随着电子工艺的不断发展,当今被人们广泛应用的加密技术不断受到挑战。基于数学上难解问题的经典加密技术正一步步出现各种可能的安全问题。1994年Shor提出大素数质因子分解的
今年7月26日,是我的父亲聂长林百岁诞辰。我找出家中珍藏的父亲的老照片和他用过的一些物品,细细品味着,多年前的件件往事不断浮现在脑海中。  1906年农历七月初二,父亲出生在辽宁抚顺县一个贫苦农家。由于交不起学费,父亲只读了5年半小学,便辍学到一家店铺当了学徒,17岁时随祖父到吉林省柳河县三源浦镇一家商铺做了店员。“九·一八”事变后,日寇占领了东北,父亲在共产党员刘山邨的引导下加入了抗日秘密组织“
Gabor变换是一种良好的人脸描述方法,二维Gabor特征比单纯的灰度特征具有更强的鲁棒性。PCA(Principle Component Analysis)方法是数据降维的重要手段,二维PCA方法,避免了从
证书是网格安全的关键技术之一,在网格安全基础设施GSI(Grid SecurityInfrastructure)中,证书包括终端实体证书EECs(End Entity Certificates)和代理证书PCs(Proxy Certifica