桌面搜索系统的研究与实现

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:focus2316acn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展,存储在计算机中的文件越来越多,而信息的查找变得越来越难。本文正是研究如何设计和实现一个良好的桌面搜索系统,帮助用户更有效地查找信息。   首先,提出了一种基于多层BloomFilter的文件路径去重算法,该算法基于经典BloomFilter改进而来的。通过实验对比,在插入与查询速度方面,多层BloomFilter算法与经典的BloomFilter算法相差无几,却大大降低了FalsePositve次数,极大地提高了精确度。将多层BloomFilter文件路径去重算法应用于桌面搜索索引过程中,有效地提高了文件索引的效率与速度。其次,设计并实现了桌面搜索系统SoDesktop。SoDesktop由数据采集模块、任务调度器、数据索引模块和数据查询模块组成。该系统使用倒排索引技术,具有中英文全文检索功能。同时,SoDesktop具有很好的扩展性,支持多种文件格式全文检索,可定制索引文件类型。它支持的文件类型包括PDF、DOC、XLS、PPT、HTML等。此外,还实现了图像、视频和本地邮件的检索功能。第三,将SoDesktop和当前几款主流的桌面搜索系统从CPU平均使用率、内存平均使用量、索引文件大小、初始索引时间和平均检索时间等5方面进行了评测。从评测结果可以看出,YahooDesktopSearch综合性能最好,索引和检索速度都很高。从索引与检索速度来看,SoDesktop与YahooDesktopSearch相差无几,但SoDesktop的内存使用量比Yahoo要低。因此,从这方面来看,SoDesktop性能要高于YahooDesktopSearch。此外,还从界面和易用性等方面进行了对比分析。最后,对现有工作进行了总结并展望了未来的研究工作。   总之,本文的研究成果对桌面搜索系统的研究与设计具有重要的应用价值,对开发一个优秀的桌面搜索系统具有很好的借鉴作用。
其他文献
近年来,人脸识别的研究和应用取得了长足的进步,但是在光照、表情、姿态、遮挡物(如眼镜)等非约束条件下,现有人脸识别系统的识别率和鲁棒性仍然不尽如人意。随着戴眼镜人群
面向服务架构(Service-oriented architecture,SOA)正成为软件产业设计复杂、可持续演化、可动态配置的分布式应用系统的基础架构。创建大型分布式应用系统(如电子服务、电子
五轴数控加工以其特有和无法替代的优势,一直是数控技术领域倍受重视和大力推广的一种加工模式。随着我国装备制造业的高速发展,现代化的制造业对五轴数控加工技术提出了更高的
计算机支持的协同工作(Computer Supported Cooperative Work, CSCW)是计算机和通信技术与人类群体协作方式相结合的一个多学科交叉的研究领域。目前,由于CSCW的特点非常适合
在图像的获取和传输过程中,经常会受到各种噪声的干扰。对图像去噪效果的好坏往往会直接影响到后续的图像处理工作。传统的去噪方法在去除噪声的同时往往会带来图像模糊等副
红外成像系统中,为了提高制冷探测器的灵敏度,通常将红外焦平面阵列进行制冷。经过制冷的探测器对于温度较为敏感,容易受到成像系统自身镜筒的热辐射与探测元冷表面的冷反射,最终
网络视频直播系统是一种多媒体网络平台,是将音频信号以及视频信号采集成数字信号,并进过网络传输的一种流媒体应用。随着二十一世纪Internet技术的的飞速发展,网络已经成为
在电子商务过程中,通过身份认证建立交易双方之间的信任是交易开始的一个重要环节。身份认证要求消费者向商家提供自己的真实身份信息(包括姓名、身份证号等)以便商家对消费
面向服务的体系结构SOA (service-oriented architecture)是一个组件模型,其主要的思想是通过集成跨平台跨语言的软件资源完成复杂的分布式计算。以与平台无关的半结构化XML
XML已经成为Internet上数据表示和数据交换的标准格式。为了直接存储和访问大量出现的XML文档,原生XML数据库逐步发展起来,许多XML处理技术(如XQuery,XML Schema)也正在日益