论文部分内容阅读
随着计算机技术的发展,存储在计算机中的文件越来越多,而信息的查找变得越来越难。本文正是研究如何设计和实现一个良好的桌面搜索系统,帮助用户更有效地查找信息。
首先,提出了一种基于多层BloomFilter的文件路径去重算法,该算法基于经典BloomFilter改进而来的。通过实验对比,在插入与查询速度方面,多层BloomFilter算法与经典的BloomFilter算法相差无几,却大大降低了FalsePositve次数,极大地提高了精确度。将多层BloomFilter文件路径去重算法应用于桌面搜索索引过程中,有效地提高了文件索引的效率与速度。其次,设计并实现了桌面搜索系统SoDesktop。SoDesktop由数据采集模块、任务调度器、数据索引模块和数据查询模块组成。该系统使用倒排索引技术,具有中英文全文检索功能。同时,SoDesktop具有很好的扩展性,支持多种文件格式全文检索,可定制索引文件类型。它支持的文件类型包括PDF、DOC、XLS、PPT、HTML等。此外,还实现了图像、视频和本地邮件的检索功能。第三,将SoDesktop和当前几款主流的桌面搜索系统从CPU平均使用率、内存平均使用量、索引文件大小、初始索引时间和平均检索时间等5方面进行了评测。从评测结果可以看出,YahooDesktopSearch综合性能最好,索引和检索速度都很高。从索引与检索速度来看,SoDesktop与YahooDesktopSearch相差无几,但SoDesktop的内存使用量比Yahoo要低。因此,从这方面来看,SoDesktop性能要高于YahooDesktopSearch。此外,还从界面和易用性等方面进行了对比分析。最后,对现有工作进行了总结并展望了未来的研究工作。
总之,本文的研究成果对桌面搜索系统的研究与设计具有重要的应用价值,对开发一个优秀的桌面搜索系统具有很好的借鉴作用。