城市大数据存储、计算及查询中若干问题的研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:fy863
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
城市大数据是在城市管理、生活、建设、发展等过程中,由物理世界、信息空间和人类社会三元空间所产生的多源、多模态、异构海量数据。这些数据是人类活动、城市发展的忠实记录,蕴涵着丰富的知识和巨大的价值。但城市大数据除了具有流量巨大、复杂异构和实时性要求等典型大数据特征外,也由数据本身的特性和城市大数据的一些应用需求,体现出以下新的挑战:(1)关联性:内在关联但外在隔离。需要挖掘事物之间的联系,通过关联映射,建立城市大数据数据的动态有机连接和关联模型。(2)时空性:时空相连但动态多变。需要从时间和空间两个维度相结合全面理解数据,来掌握其动态演化的特性。(3)冗余性:海量丰富但冗余重复。需要挖掘相似数据,去除重复,降低系统I/O资源消耗,提高查询的性能。以上这些挑战极大地增加了对其进行高效管理和处理的难度,使得城市大数据的存储、计算、查询等服务面临巨大的“瓶颈”。为解决这些挑战,满足多源异构城市大数据的实时高性能处理,本文基于城市大数据的各项典型应用,充分考虑了城市大数据在存储、计算、查询等基础服务面临的需求,以有效和高效地支持各种应用场景、各种类型数据、不同条件下的数据管理和处理为目标,提出了多种城市大数据存储、计算、查询优化技术。本文所研究的大数据处理框架和解决方案具有良好的实用性和可扩展性,可有效解决城市大数据在特定应用下的查询计算中的性能问题。  本文主要贡献及创新点如下:  针对城市大数据的“关联性”特征,本文首次提出一种基于超步粒度调节的新型分布式图计算框架,用于支持分布式环境下的城市大图数据关联分析计算。在Pregel的顶点驱动模型和分布式图计算的BSP模型基础上,为这种新型的计算框架设计了基于迭代函数和基于未知参数两种方法来调整计算模型,并通过调整每两次消息同步间的迭代计算次数调整并行计算的粒度,减少分布式计算中跨工作节点的网络传输和消息同步代价,提高城市大图数据进行分布式计算挖掘的性能。  针对城市大数据的“时空性”特征,本文创新性地提出了一种结合可视性的时空移动对象近邻查询方法,以解决信息物理系统的应用关注城市中移动对象的时空属性时需要考虑建筑等遮挡环境下不断变化的可视性的问题。通过有效地使用空间索引,高效地计算空间距离和视觉可视性,以及结合空间距离属性和视觉可视性属性的剪枝策略,准确高效地实现对目标对象的查询。  针对城市大数据的“冗余性”特征,本文创新性地提出了一种基于压缩编码的关系型数据存储和查询优化解决方案,用于解决城市大数据中手机信令、通话记录、全网数据等大容量关系型记录数据的存储空间和查询性能问题。通过基于数据仓库列内和列间数据规则挖掘的压缩编码算法,和在规则挖掘和编解码中使用GPU作为并行处理协处理器,设计了一套高效完整的编解码解决方案,使数据库在不影响解码查询性能的前提下能大幅度减少整体的存储代价,减少数据表查询时所需的I/O,获得性能上的巨大提升。
其他文献
随着多媒体技术的成熟和因特网技术的发展,流媒体已经成为互连网上极为重要的应用之一。但是,随着用户数量的增加、用户需求的提高,传统的流媒体系统不能很好的满足用户的需
虚拟手术系统是仿真技术在医学中的重要应用,基于临床的CT数据,它能真实地重建出感兴趣组织的三维空间立体结构,对复杂手术过程进行反复演练和模拟,让医生合理准确地制定个体化的
我国的应急信息平台在国务院及地方各级政府统一规划下,依托现有的电子政务网,整合现有应急资源,建成信息开放和资源共享的服务和信息平台,应急各类技术标准亟待开发。应急预案是
随着计算机网络技术的迅速发展,如何对网络环境中的用户进行有效的管理是一个相当复杂和繁琐的问题。特别是在网络科研协同服务环境中,由于用户和信息资源数量巨大,如何让合法的
目前软件工业界面临着产品功能越来越复杂和推出产品周期越来越短的双重压力。软件工程的一个主要目标就是在软件复杂性增加的情况下仍能构造正确可靠的系统,达到这一目标的
机器翻详是自然语言处理中研究的一个重要课题。近年来统计机器翻译的研究占据了机器翻译研究的主流地位。而且统计机器翻译经历了从词到短语,从使用表层字符串信息到使用句法
移动Ad Hoc网络的移动、自组织、无中心、多跳广播传输等特性,使它更容易受到各种不同的攻击。而在移动Ad Hoc网络的一些特定应用领域(如战场),除通信内容容易被截获、窃取外
在EAST托卡马克装置中,极向场线圈电流的变化确定等离子体的位形、电流和平衡,线圈电流控制的好坏对放电结果有着重要的影响。极向场控制系统采用PID控制的方法,控制参数直接影
网络计算机/服务器计算模式是一种新兴的计算模式。它利用远程显示机制将交互式桌面应用的计算任务与图形用户界面进行了分离,将计算任务集中在服务器端完成,而客户端仅负责处
为了提高移动终端的能量使用效率,支持无线宽带城域网的IEEE802.16e标准提出了三种休眠模式。本文基于现代网络中的UGS(Unsolicited Grant Service)和RT-VR(Real-Time Variabl