基于模糊信息处理的个性化文件搜索引擎算法研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:liweitxwd147
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在快速进步的信息时代,人们在快速的生活节奏中能以很简单的方式用搜索引擎能够在茫茫互联网中找到较为准确的用户所需要的信息。在最近几年中,搜索引擎正在飞速发展。同时桌面搜索引擎也有了较为快速的发展。但在为用户提供个性化的服务方面还没有达到用户的要求,它们仅仅是找到用户的文件并作一些简单处理,在用户文件中所蕴含的知识的分析、聚合及潜在的知识的挖掘、搜索结果人性化展示等方面的功能有所欠缺。这几点正是本文的重点研究对象。本文的工作源于四川省青年软件创新基金资助项目—U-CLASS,主要提供用户知识挖掘及管理、个性化搜索、用户兴趣学习及用户个性化服务等。本文主要工作如下:(1)从搜索引擎的基本概念及历史出发,分析了桌面(文件)搜索引擎的发展及长短处。同时结合U-CLASS,提出本文的研究方向;(2)从U-CLASS项目的实际需求入手,研究了基于模糊信息处理的个性化分布式文件搜索引擎的基础理论,提出了基于并性模糊模糊蚂蚁的聚类算法、基于Double-Array Trie的中文分词算法及全新的用户模型等;在从理论角度研究相关模型和算法的同时,也采用了大量的数据及测试工具,对相关模型和算法作了较为详细的测试,进而验证算法和模型的准确性与高效性;(3)从设计和实现的角度作了较为详细的工作。主要采用自顶向下的方式,从系统架构到各个模块,再到各个软件包的设计,整个系统层次分明、结构清晰。主要包括:整个系统的架构、聚类算法的设计与实现、中文分词算法的实现、全新的用户模型的设计与实现及并发文件蜘蛛(Spider)的设计与实现等;(4)采用多个工具进行了相关测试,包括:功能测试、压力测试等;同时采用JProfiler对整个系统进行了性能分析和优化;(5)在总结本文目前的完成的工作的情况下,对后续工作也做了简明分析及展望。
其他文献
在软件开发的早期阶段若能对将要形成的软件产品的质量进行预测,一方面可以尽早发现软件设计中的错误,避免它们被延续到开发的后期阶段;另一方面可以针对目标软件某些质量属
图像配准是图像处理领域中的重要技术,用于实现两幅或者是更多图像之间的匹配。经过多年的研究和进步,对不同实际需求和输入数据图像类型,已存在大量的图像配准算法。在实际应用
近年来,随着计算机网络的飞速发展,基于IP分组网络的实时多媒体业务的应用越来越多。其中,VoIP技术以其低廉的价格优势、丰富的业务平台为远距离语音通信提供了强大而有效的手段
旋转导向智能钻井技术已经成为了现在钻井行业的最新技术,其体现的商业价值已经在世界各地得到了体现。掌握最先进的钻井技术,已经成为石油钻井最急需解决的问题。可控偏心器—
移动通信技术使人们之间的沟通交流变得更加地便捷,同时也丰富了人们的娱乐生活。现在的移动通信的业务类型变得越来越丰富,这就使得通信系统面临着越来越多的问题。这其中就包
近年来,无线传输技术的蓬勃发展带来了低成本、低功耗、高集成度的CMOS无线射频收发机研究和设计的春天。伴随着CMOS工艺的不断发展,持续的scaling down已经使得MOS晶体管的特
6LoWPAN是一种在IEEE802.15.4标准基础上实现无线传感器网络IP化的技术。在现有的单网关结构中,存在围绕6LoWPAN边界路由器的网络拥塞问题。通过引入多网关系统架构,能够有效的
电子对抗是敌对双方利用可选择的电磁波频率范围内的信号和武器装备争取战争胜利的对抗行动。扩频通信由于其抗干扰、保密性的优点在军事通信中得到广泛应用。跳频和DS/SS是
Interne的体系结构以IP协议提供的无连接端到端报文传输服务为基础,提供“尽力而为”服务模型的设计机制。这种机制的最大优势是设计简单,可扩展性强。因此,internet自出现以来