语义关联空间与分布式文件存储系统的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:greathuhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet上面的信息数量与日俱增,使得互联网的使用者已经很难以地址栏输入地址或简单的导航网站等方式准确、有效地找到所需内容。搜索引擎的出现给这个问题提供一个有效的解决方案。搜索引擎如今已然成了互联网使用者在网上找到他们所需信息的最有效的查找方式。这就使得学者专家们对搜索引擎的研究越加重视,近几年搜索引擎的各种相关技术都有了长足的进步,并且相继出现了像Baidu、Google、Yahoo等这样优秀的搜索引擎。   与搜索引擎相关的技术方向有很多,它们当中底层的分布式文件存储系统是相当重要的一个方向。因为上层的搜索引擎的基础就是底层的分布式文件存储系统,底层文件系统带来的瓶颈,就成为了搜索引擎发展的制约因素之一。因此本文一个研究内容就是对搜索引擎之中底层的分布式文件存储系统的分析和优化,通过提高底层分布式文件存储系统的性能,防止整个搜索引擎系统瓶颈的出现。   由于最近搜索引擎领域之中的语义检索方向已成为一个热点,所以本文的第二个研究内容就是搜索引擎之中的语义级别检索。语义级别的搜索引擎的检索结果更准确全面,以它代替传统的文本匹配式检索是搜索引擎领域发展的必然趋势。本文的主要工作如下:   (1)本文对搜索引擎相关的两个方向,包括:语义相似度计算及语义关联空间以及应用到搜索引擎中的分布式文件存储系统等研究方向做了概括的介绍。   (2)介绍语义相似度计算的概念,以及它在新一代搜索引擎中的重要性,进而提出语义关联空间概念,并讨论通过本体的方式实现语义关联空间,之后介绍了Wikipedia,研究它的结构和数据的解析方法,利用Wikipedia结构和数据信息来实现语义关联空间,并验证其有效性。   (3)把HDFS与MooseFS进行了对比,说明了选择MooseFS的因为,指出了控制分布式文件存储系统在每台chunkserver机器上占用硬盘资源的最大限额的必要性,并且带着这个目的对MooseFS的结构和工作流程进行了探索,从而找到优化点。之后对其代码进行了相应优化,开发自动化部署脚本,用于集群机器的部署。最后我们对系统进行了性能测试,压力测试和优化实验测试。
其他文献
数字图像处理方法的研究源于两个主要应用领域:其一是为了便于人们分析而对图像信息进行改进;其二是使机器自动理解识别而对图像数据进行存储、传输及显示。将分数阶微分用于
薄层色谱法(Thin-Layer Chromatography,简称TLC)具有设备和操作简单,展开时间短,检验灵敏度高等优点,是微量样品快速分离和定量分析的重要方法。在石油化工中,原油和有机抽
文本表示研究是自然语言处理领域基础的研究课题之一。词是文本中基本的语义单元,传统的词表示方法无法全面反映其所蕴含的语义信息,针对特定的自然语言处理任务,研究者们需
随着社会的高速发展,人们生活水平的不断提高。笔记本电脑正逐步走进千家万户的家中,成为人们工作、生活、娱乐不可或缺的重要组成部分。然而,在人们购买笔记本电脑之前,往往
在工程实践和科学研究中存在着大量的组合优化问题,且大多带有约束条件,采用传统的数学优化方法将很难求解。差分进化算法是近年提出的一种新的自然计算方法,也是基于种群迭
本体作为共享概念模型的形式化规范说明,具有良好的概念层次结构和语义表达能力,已经引起越来越多国内外专家学者的关注,并在知识工程、语义检索等领域得到广泛应用。然而,现
词是最小的能独立表示语义的语言单位,因而是处理各种自然语言文本的基础。汉语书写显得很特别,因为它没有明确的标志将词与词分开,而是一段连续的汉字串。如何把汉字串正确
跨层设计是最近几年通信网络领域研究的热点之一。跨层设计是相对于传统的分层设计思想而言的。传统的分层设计思想在有线网络设计中的应用非常成功。但是在无线网络中,传统
为了满足基于无线传感器网络的危险品运输监测系统的高可靠性和高实时性,在设计时必须要求传感器节点的低功耗和系统对事件处理的实时性响应,从而实现车辆在行驶状态中传感器
膜计算是生物计算的分支,是从生物活细胞的功能和结构中抽象出来的计算模型。膜计算又称之为P系统,是由罗马尼亚科学家Gh.Paun于1998年提出的一种计算模型,为计算机科学带来