论文部分内容阅读
在快速进步的信息时代,人们在快速的生活节奏中能以很简单的方式用搜索引擎能够在茫茫互联网中找到较为准确的用户所需要的信息。在最近几年中,搜索引擎正在飞速发展。同时桌面搜索引擎也有了较为快速的发展。但在为用户提供个性化的服务方面还没有达到用户的要求,它们仅仅是找到用户的文件并作一些简单处理,在用户文件中所蕴含的知识的分析、聚合及潜在的知识的挖掘、搜索结果人性化展示等方面的功能有所欠缺。这几点正是本文的重点研究对象。本文的工作源于四川省青年软件创新基金资助项目—U-CLASS,主要提供用户知识挖掘及管理、个性化搜索、用户兴趣学习及用户个性化服务等。本文主要工作如下:(1)从搜索引擎的基本概念及历史出发,分析了桌面(文件)搜索引擎的发展及长短处。同时结合U-CLASS,提出本文的研究方向;(2)从U-CLASS项目的实际需求入手,研究了基于模糊信息处理的个性化分布式文件搜索引擎的基础理论,提出了基于并性模糊模糊蚂蚁的聚类算法、基于Double-Array Trie的中文分词算法及全新的用户模型等;在从理论角度研究相关模型和算法的同时,也采用了大量的数据及测试工具,对相关模型和算法作了较为详细的测试,进而验证算法和模型的准确性与高效性;(3)从设计和实现的角度作了较为详细的工作。主要采用自顶向下的方式,从系统架构到各个模块,再到各个软件包的设计,整个系统层次分明、结构清晰。主要包括:整个系统的架构、聚类算法的设计与实现、中文分词算法的实现、全新的用户模型的设计与实现及并发文件蜘蛛(Spider)的设计与实现等;(4)采用多个工具进行了相关测试,包括:功能测试、压力测试等;同时采用JProfiler对整个系统进行了性能分析和优化;(5)在总结本文目前的完成的工作的情况下,对后续工作也做了简明分析及展望。