论文部分内容阅读
当今社会计算机和互联网发展迅猛,各行各业每天都会产生数以亿计的数据,如何从海量数据中快速地进行数据检索,已成为用户的迫切需求。为此,以Elasticsearch,Solr,IndexTank为代表的搜索引擎框架应运而生,其中Elasticsearch分布式搜索引擎因其实时性高,可用性强,使用简单和检索效率高等良好特性,得到了业内各大互联网公司及众多科研机构的青睐,广泛地应用在各行各业的实际生产和工作中,成为了主流的全文搜索引擎框架。
论文首先针对Elasticsearch分布式搜索引擎框架的应用现状、研究现状、相关文献及源代码进行深入调查和研究,分析了Elasticsearch的架构组成、运行机制和实现原理,归纳总结出Elasticsearch中索引段合并机制、路由机制及数据放置策略存在的问题,提出相应的改进策略并通过实验加以验证,主要完成的工作如下:
Elasticsearch的索引段合并方面,由于现有的策略在合并时机上没有考虑节点的负载,在集群高负载情况下,由于线程的上下文切换及资源争用,会降低索引段合并的速度及集群的吞吐量;此外,现有合并策略并没有优化数据分布,从而影响数据检索效率。为此提出基于相似度评价模型的索引段合并策略,该策略通过选择不同的索引段合并方式,从而减少索引段合并次数,提高了集群的吞吐量;进一步地,通过相似度评价模型选择出最优的待合并索引段,从而提高数据的检索速度。
Elasticsearch的文档路由及数据放置方面,其默认的路由公式让所有的数据都均匀地分布到各个索引分片中,查询时再从所有分片中进行遍历,对于小量数据的查询不够高效;此外,现有放置策略也存在不同主题类别数据分布不均及数据导入效率低的问题。为此,提出基于分片绑定的数据放置策略,该策略基于数据分片绑定能够根据数据的大小及冷热程度选择不同的数据存储方式,并通过分片绑定模型选择出最优的分片绑定节点,从而优化了数据的存储分布,提高了数据的读写效率。
论文研究工作表明,基于Elasticsearch分布式搜索引擎框架,研究其数据存储策略,进一步优化其索引段合并和数据放置策略,可以提高Elasticsearch的检索速度和吞吐量,对Elasticsearch搜索引擎框架的应用及推广具有重要意义。
论文首先针对Elasticsearch分布式搜索引擎框架的应用现状、研究现状、相关文献及源代码进行深入调查和研究,分析了Elasticsearch的架构组成、运行机制和实现原理,归纳总结出Elasticsearch中索引段合并机制、路由机制及数据放置策略存在的问题,提出相应的改进策略并通过实验加以验证,主要完成的工作如下:
Elasticsearch的索引段合并方面,由于现有的策略在合并时机上没有考虑节点的负载,在集群高负载情况下,由于线程的上下文切换及资源争用,会降低索引段合并的速度及集群的吞吐量;此外,现有合并策略并没有优化数据分布,从而影响数据检索效率。为此提出基于相似度评价模型的索引段合并策略,该策略通过选择不同的索引段合并方式,从而减少索引段合并次数,提高了集群的吞吐量;进一步地,通过相似度评价模型选择出最优的待合并索引段,从而提高数据的检索速度。
Elasticsearch的文档路由及数据放置方面,其默认的路由公式让所有的数据都均匀地分布到各个索引分片中,查询时再从所有分片中进行遍历,对于小量数据的查询不够高效;此外,现有放置策略也存在不同主题类别数据分布不均及数据导入效率低的问题。为此,提出基于分片绑定的数据放置策略,该策略基于数据分片绑定能够根据数据的大小及冷热程度选择不同的数据存储方式,并通过分片绑定模型选择出最优的分片绑定节点,从而优化了数据的存储分布,提高了数据的读写效率。
论文研究工作表明,基于Elasticsearch分布式搜索引擎框架,研究其数据存储策略,进一步优化其索引段合并和数据放置策略,可以提高Elasticsearch的检索速度和吞吐量,对Elasticsearch搜索引擎框架的应用及推广具有重要意义。