论文部分内容阅读
Internet上面的信息数量与日俱增,使得互联网的使用者已经很难以地址栏输入地址或简单的导航网站等方式准确、有效地找到所需内容。搜索引擎的出现给这个问题提供一个有效的解决方案。搜索引擎如今已然成了互联网使用者在网上找到他们所需信息的最有效的查找方式。这就使得学者专家们对搜索引擎的研究越加重视,近几年搜索引擎的各种相关技术都有了长足的进步,并且相继出现了像Baidu、Google、Yahoo等这样优秀的搜索引擎。
与搜索引擎相关的技术方向有很多,它们当中底层的分布式文件存储系统是相当重要的一个方向。因为上层的搜索引擎的基础就是底层的分布式文件存储系统,底层文件系统带来的瓶颈,就成为了搜索引擎发展的制约因素之一。因此本文一个研究内容就是对搜索引擎之中底层的分布式文件存储系统的分析和优化,通过提高底层分布式文件存储系统的性能,防止整个搜索引擎系统瓶颈的出现。
由于最近搜索引擎领域之中的语义检索方向已成为一个热点,所以本文的第二个研究内容就是搜索引擎之中的语义级别检索。语义级别的搜索引擎的检索结果更准确全面,以它代替传统的文本匹配式检索是搜索引擎领域发展的必然趋势。本文的主要工作如下:
(1)本文对搜索引擎相关的两个方向,包括:语义相似度计算及语义关联空间以及应用到搜索引擎中的分布式文件存储系统等研究方向做了概括的介绍。
(2)介绍语义相似度计算的概念,以及它在新一代搜索引擎中的重要性,进而提出语义关联空间概念,并讨论通过本体的方式实现语义关联空间,之后介绍了Wikipedia,研究它的结构和数据的解析方法,利用Wikipedia结构和数据信息来实现语义关联空间,并验证其有效性。
(3)把HDFS与MooseFS进行了对比,说明了选择MooseFS的因为,指出了控制分布式文件存储系统在每台chunkserver机器上占用硬盘资源的最大限额的必要性,并且带着这个目的对MooseFS的结构和工作流程进行了探索,从而找到优化点。之后对其代码进行了相应优化,开发自动化部署脚本,用于集群机器的部署。最后我们对系统进行了性能测试,压力测试和优化实验测试。