论文部分内容阅读
城市大数据是在城市管理、生活、建设、发展等过程中,由物理世界、信息空间和人类社会三元空间所产生的多源、多模态、异构海量数据。这些数据是人类活动、城市发展的忠实记录,蕴涵着丰富的知识和巨大的价值。但城市大数据除了具有流量巨大、复杂异构和实时性要求等典型大数据特征外,也由数据本身的特性和城市大数据的一些应用需求,体现出以下新的挑战:(1)关联性:内在关联但外在隔离。需要挖掘事物之间的联系,通过关联映射,建立城市大数据数据的动态有机连接和关联模型。(2)时空性:时空相连但动态多变。需要从时间和空间两个维度相结合全面理解数据,来掌握其动态演化的特性。(3)冗余性:海量丰富但冗余重复。需要挖掘相似数据,去除重复,降低系统I/O资源消耗,提高查询的性能。以上这些挑战极大地增加了对其进行高效管理和处理的难度,使得城市大数据的存储、计算、查询等服务面临巨大的“瓶颈”。为解决这些挑战,满足多源异构城市大数据的实时高性能处理,本文基于城市大数据的各项典型应用,充分考虑了城市大数据在存储、计算、查询等基础服务面临的需求,以有效和高效地支持各种应用场景、各种类型数据、不同条件下的数据管理和处理为目标,提出了多种城市大数据存储、计算、查询优化技术。本文所研究的大数据处理框架和解决方案具有良好的实用性和可扩展性,可有效解决城市大数据在特定应用下的查询计算中的性能问题。 本文主要贡献及创新点如下: 针对城市大数据的“关联性”特征,本文首次提出一种基于超步粒度调节的新型分布式图计算框架,用于支持分布式环境下的城市大图数据关联分析计算。在Pregel的顶点驱动模型和分布式图计算的BSP模型基础上,为这种新型的计算框架设计了基于迭代函数和基于未知参数两种方法来调整计算模型,并通过调整每两次消息同步间的迭代计算次数调整并行计算的粒度,减少分布式计算中跨工作节点的网络传输和消息同步代价,提高城市大图数据进行分布式计算挖掘的性能。 针对城市大数据的“时空性”特征,本文创新性地提出了一种结合可视性的时空移动对象近邻查询方法,以解决信息物理系统的应用关注城市中移动对象的时空属性时需要考虑建筑等遮挡环境下不断变化的可视性的问题。通过有效地使用空间索引,高效地计算空间距离和视觉可视性,以及结合空间距离属性和视觉可视性属性的剪枝策略,准确高效地实现对目标对象的查询。 针对城市大数据的“冗余性”特征,本文创新性地提出了一种基于压缩编码的关系型数据存储和查询优化解决方案,用于解决城市大数据中手机信令、通话记录、全网数据等大容量关系型记录数据的存储空间和查询性能问题。通过基于数据仓库列内和列间数据规则挖掘的压缩编码算法,和在规则挖掘和编解码中使用GPU作为并行处理协处理器,设计了一套高效完整的编解码解决方案,使数据库在不影响解码查询性能的前提下能大幅度减少整体的存储代价,减少数据表查询时所需的I/O,获得性能上的巨大提升。