论文部分内容阅读
互联网中蕴含着大量的有价值信息,而搜索引擎是目前人们从互联网上检索信息的重要工具。传统的搜索引擎仅依靠关键字匹配为用户寻找相关的网页,并根据一定的算法进行排名呈献给用户,并没有参考网页的语义信息。随着互联网技术的发展和人们精确搜索需求的增加,传统的搜索引擎已经不能够很好地适应这一需求的变化。为了解决传统搜索引擎存在的不足,知识搜索应运而生。知识搜索会分析用户的查询意图,并将相关的知识返回给用户,大大提高了搜索结果的准确程度和相关程度。由于自然语言处理的高耗时性并顾及到知识库增长带来的存储问题以及安全性,本文将知识搜索与分布式框架相结合,实现了一个包含工作流框架、分布式爬虫和分布式知识抽取模块的可灵活配置流程的分布式知识搜索系统,并对单机系统和分布式系统的效率进行了对比。在由三台机器组成的实验性分布式系统上进行的对比实验说明分布式知识抽取系统的效率比单机系统提高了近一倍,并且可以随着分布式集群的扩展继续提高。同时,分布式系统也能提供更好的安全性。