Elasticsearch数据存储策略研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:zhangshuai824
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会计算机和互联网发展迅猛,各行各业每天都会产生数以亿计的数据,如何从海量数据中快速地进行数据检索,已成为用户的迫切需求。为此,以Elasticsearch,Solr,IndexTank为代表的搜索引擎框架应运而生,其中Elasticsearch分布式搜索引擎因其实时性高,可用性强,使用简单和检索效率高等良好特性,得到了业内各大互联网公司及众多科研机构的青睐,广泛地应用在各行各业的实际生产和工作中,成为了主流的全文搜索引擎框架。
  论文首先针对Elasticsearch分布式搜索引擎框架的应用现状、研究现状、相关文献及源代码进行深入调查和研究,分析了Elasticsearch的架构组成、运行机制和实现原理,归纳总结出Elasticsearch中索引段合并机制、路由机制及数据放置策略存在的问题,提出相应的改进策略并通过实验加以验证,主要完成的工作如下:
  Elasticsearch的索引段合并方面,由于现有的策略在合并时机上没有考虑节点的负载,在集群高负载情况下,由于线程的上下文切换及资源争用,会降低索引段合并的速度及集群的吞吐量;此外,现有合并策略并没有优化数据分布,从而影响数据检索效率。为此提出基于相似度评价模型的索引段合并策略,该策略通过选择不同的索引段合并方式,从而减少索引段合并次数,提高了集群的吞吐量;进一步地,通过相似度评价模型选择出最优的待合并索引段,从而提高数据的检索速度。
  Elasticsearch的文档路由及数据放置方面,其默认的路由公式让所有的数据都均匀地分布到各个索引分片中,查询时再从所有分片中进行遍历,对于小量数据的查询不够高效;此外,现有放置策略也存在不同主题类别数据分布不均及数据导入效率低的问题。为此,提出基于分片绑定的数据放置策略,该策略基于数据分片绑定能够根据数据的大小及冷热程度选择不同的数据存储方式,并通过分片绑定模型选择出最优的分片绑定节点,从而优化了数据的存储分布,提高了数据的读写效率。
  论文研究工作表明,基于Elasticsearch分布式搜索引擎框架,研究其数据存储策略,进一步优化其索引段合并和数据放置策略,可以提高Elasticsearch的检索速度和吞吐量,对Elasticsearch搜索引擎框架的应用及推广具有重要意义。
其他文献
锁阳(Cynomorium songaricumRupr.),是一种生长在沙漠地区的寄生植物,主要用于治疗“肾阳不足、精血亏虚、腰膝痿软、阳痿滑精,肠燥便秘”等。然而,不同地区来源的锁阳品质差异较大、影响锁阳药效的化学成份积累的相关因素尚不清楚等严重制约着锁阳的使用。  本课题以UPLC-Q/TOF-MS/MS为手段,采用代谢组学的方法系统分析锁阳代谢组成,采用多变量统计分析来自我国腾格里沙漠和巴
学位
NCo R1即核受体辅抑制因子1,NCo R1在肿瘤发生、脂肪代谢及肌肉活动中都起重要调控作用,但在免疫系统中的调控作用知之甚少。早期Glass实验室利用CHIP、过表达以及Knockdown等技术阐明NCo R1在巨噬细胞的激活过程中起抑制作用,然而最近Li P等利用条件性基因敲除小鼠进行研究而发表在《Cell》杂志的实验结果并不能重复该早期研究发现,说明技术手段的不同可能会导致截然不同的研究结
网络时代时时刻刻都在产生大量的数据/信号,人们经常需要进行采样压缩以实现对这些信号的存储和传输。随之而来,从压缩后的信号恢复出原始信号则是一件极具挑战性的事,这在实际应用中也起着关键作用。因而对具有稀疏先验的信号,稀疏重建技术一直属于信号处理领域的研究热点之一。  传统的稀疏重建算法大多需要进行很多次迭代运算,对硬件的计算能力和存储能力要求较高,而采用基于常微分方程(ODE)的动态系统可以更加快速
在如今信息化技术高度发展的时代,数字图像是人们日常生活中最常接触到的信息载体,与人们的日常生活息息相关。然而图像在获取(成像)和传输过程中不可避免地会受到噪声的污染,影响图像的质量,进而影响后续的图像应用。因此图像去噪是图像处理最基础的问题之一,也是计算机视觉最底层的研究之一,有着重要的现实意义。  由于图像去噪是一个病态的逆问题,其解存在无穷多个,所以结合图像的先验信息,用于构造合适的正则项来约
学位
通信需求的“立体式”增长,激励着无线通信技术的迅猛发展。频率资源对通信系统容量和性能制约性影响,已经严重的影响了通信系统的发展。如何有效的提高频谱效率和能量效率是第五代移动通信系统发展和建设的关键问题。大规模多天线(Massive MIMO: Massive Multiple Input Multiple Output)技术是突破这一瓶颈的关键技术。  本论文主要研究了大规模多天线系统在典型传播场
学位
单目图像的三维人体姿态估计是计算机视觉领域中的热点问题,具有非常广泛的应用前景。由于从单目图像推理三维空间信息本身是一个病态问题,且姿态图像存在着遮挡和视点差异,使其非常具有挑战性。本文分两阶段进行单目图像的三维人体姿态估计,首先从单目图像中估计二维人体姿态,进而根据二维姿态估计结果推理出三维人体姿态。本文还将单目图像的三维人体姿态估计与基于内容的图像检索相结合,提出视点无关的人体姿态图像检索框架
IEEE802.11无线局域网(Wireless Local Area Network,WLAN)技术在过去二十年中取得了巨大的进展,由于其具有低成本、灵活性、可扩展性和易部署等优势,在家庭、企业和工业等诸多无线网络场景和应用中均展现出了强大的生命力。工业WLAN继承了WLAN的基本功能和特性,但由于工业环境的复杂性和WLAN协议的内在不足引起的网络不确定性,使得传统WLAN难以直接应用于工业通信
铽(Ⅲ)掺杂的铝酸锌纳米晶是用化学共沉淀法合成后煅烧处理。通过XRD衍射数据估算出合成的材料的平均晶粒尺寸约为6.45±2.0nm,这与通过HR-TEM得到的晶粒尺寸相一致。X射线粉末衍射谱证实在晶体的主相点阵中铝离子被铽粒子所替代。本文研究了铽浓度和样品的颗粒尺寸对材料的发光性能的影响。光致发光图谱显示了一个绿色的发射光谱带,激发光波长为230nm。在一些陶瓷产品的工艺测试中证实这种涂料和它的发
知识图谱用一种结构化的方式存储现实世界存在的知识,由于其知识易于被计算机处理,因此在自然语言处理的许多任务中它都起着极其重要的作用。虽然从绝对数量上来看,现有知识图谱已经包含了海量的三元组事实,但是与真实世界中存在的知识相比它远远不够,因此如何完善知识图谱成为目前的研究热点。本文提出了一种基于非结构化文本增强关联规则的知识推理方法(NaturalLanguageEnhancedAssociatio
学位
物联网(Internet of Things,IoT)是指将物品通过互联网和信息传感设备连接而形成的巨大的泛在网络。终端用户通过现有的网络基础设施远程控制或访问这些传感设备,进行通信以及信息交换。目前,物联网技术已经逐渐应用于交通、教育、物流、医疗等各个行业之中,给人们带来了极大的便利。但是,由于其通信信道和信息传感设备所处环境的开放性,物联网本身容易受到各种安全攻击,比如拒绝服务、重放和假冒攻击
学位