基于混合数据库的多源社会治理数据的分布式存储与融合

来源 :科技创新导报 | 被引量 : 0次 | 上传用户:c492665189
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘  要:社会治理是国家治理的重要方面。坚持和完善共建共治共享的社会治理制度,保持社会稳定、维护国家安全是社会治理的长远目标。当前由数字技术驱动的社会治理创新已经从信息化走向了智能化,其首要面临的问题就是海量多源异构的社会治理数据的存储与融合。本文采用混合数据库技术,基于Hadoop框架,提出了一套多源社会治理数据的分布式存储与融合技术方案,并利用国产化大數据产品落地建设在深圳市龙岗区。
  关键词:社会治理智能化  混合数据库  Hadoop  分布式数据存储与融合
  中图分类号:TP311.13           文献标识码:A             文章编号:1674-098X(2021)04(c)-0138-05
  Distributed Storage and Integration of Multi-Source Social Governance Data Based on Hybrid Database
  YU Haiyan
  (Shenzhen Zongdi Software Engineering Co.,Ltd., Shenzhen, Guangdong Province, 518057 China)
  Abstract: Social governance is an important aspect of national governance. Adhering to and improving the social governance system of co-construction, co-governance and sharing, maintaining social stability and maintaining national security are the long-term goals of social governance. The current social governance innovation driven by digital technology has moved from informatization to intelligence. The first thing it faces is the storage and integration of massive multi-source heterogeneous social governance data. Based on hybrid database technology, This article uses hybrid database technology, based on the Hadoop framework, and proposes a set of distributed storage and fusion technology solutions for multi-source social governance data, and uses localized big data products to be implemented in Longgang District, Shenzhen.
  Key Words: Intelligent social governance; Hybrid database; Hadoop; Distributed data storage and fusion
  社会治理是社会建设的一项重大任务,也是国家治理的重要组成部分。《中共中央关于坚持和完善中国特色社会主义制度、推进国家治理体系和治理能力现代化若干重大问题的决定》指出:“必须加强和创新社会治理,完善党委领导、政府负责、民主协商、社会协同、公众参与、法治保障、科技支撑的社会治理体系。”以大数据、云计算、物联网、5G、人工智能等信息技术为代表的新一代科学技术作为完善社会治理体系的先进手段,为社会治理创新提供了重要的技术支撑,在创新社会治理理念和治理体制,改进治理方式等方面提供了社会治理创新的新动力,并推动社会治理创新从信息化走向了智能化。
  社会治理涉及人、事、物、情等各类社会治理要素。这些数据分散存储在各个职能部门和应用系统中,各类数据的结构和存储多样化。随着社会治理和综合服务的应用深入,数据量也在急速增长。因而,社会治理智能化面临的首要问题就是如何对多样化的社会治理数据的有效存储与融合,并在此基础上实现海量数据的高效查询和检索。
  本文采用混合数据库技术,针对海量多源异构的社会治理数据,设计提出了一套基于Hadoop的分布式数据存储与融合技术方案,在深圳市龙岗区的社会治理智能化项目中进行应用实践,并获得良好的成效。
  1  混合数据库是社会治理数据存储与融合的必然选择
  进入大数据时代,社会治理从信息化步入智能化。社会治理智能化的基础是建立社会治理大数据中心。建设社会治理大数据中心:首先,需要汇集辖区内社会治理和综合服务相关的基础数据和业务数据,包括与各业务系统对接获取的社会治理和综合服务相关数据,以及通过网格员、志愿者、人民群众等社会治理基层力量进行上报获取的相关数据;其次,再通过构建数据资源目录、建立数据标准,经过数据清洗、数据稽查等对数据进行规整治理,形成质量较高的社会治理数据;最后,通过按照社会治理相关业务进行数据主题库、立体化网格划分等处理,形成服务于社会治理的大数据中心,支撑社会治理业务系统、决策分析系统以及可视化系统等上层应用。
  汇集在社会治理大数据中心的数据来源于多个相关职能部门和各种渠道,大致可以分为以下 5类。   (1)由社会治理基层力量(网格员、楼栋长、志愿者等)采集的业务基础数据,包括人口数据(户籍人口、实有人口、常住人口、流动人口、外籍人口等)、房屋数据(住宅、厂房、写字楼、临时建筑等)和法人数据(国营、集体、私营、个体等)。其中,多数是记录表格形式的结构化数据,也有部分证照图片形式的非结构化数据。
  (2)由社会治理的业务工作平台产生的各类社会治理和综合服务核心业务数据,包括工作网格划分数据、矛盾纠纷和问题隐患事件处置数据、社会治理基层力量分布数据、特殊区域(工 业区、花园小区、公共配套、城中村等)划分数据、特殊群体(敬老优待对象、残疾、精神疾病等)等。其中,既有表示空间实体的位置、形状、分布等特征的空间数据,也有表示实体对象的性质、现状、处理流程、结论等特征的结构化、半结构化和非结构化数据。
  (3)与政府区域空间基础信息平台对接获取的基础空间数据,包括二/三维的电子地图、行政区划、房屋图形、地理网格图形、遥感影像图等,是同时具有结构化和非结构化特征的地理数据。
  (4)与政府区域数据交换共享平台对接获取的业务关联数据,包括政法委的块数据、公安的户籍人口登记信息、社保的参保人口登记信息、工商的商事主体登记信息、税务的纳税主体登记信息等。该类数据以结构化数据为主。
  (5)与辖区物联监测平台对接获取的实时监测数据,比如与辖区公安部门对接的雪亮工程的位置分布和相关视频数据、与街道社区门禁系统对接的门禁位置和视频数据等。此类数据主要是非结构化数据。
  综合来看,上述数据中既有结构化的表格数据,也有非结构化的图片数据,还有实时的GPS位置数据以及视频和音频数据等。数据来源多样,结构各异,数量庞大。并且,随着时间的推移和业务的办理,数据体量还会不断增长。无论是经典的关系型数据库还是传统GIS的空间数据库都已经无法满足社会治理大数据中心的存储和应用需求。因而,SQL和NoSQL相结合的混合数据库[1]存储成为大数据时代建立社会治理大数据中心的必然选择。
  2  多源社会治理数据的存储与融合设计
  2.1 社会治理大数据中心的技术架构
  針对社会治理数据海量多源异构的特性,本文利用基于Hadoop分布式文件系统[2]、HBase分布式数据库、Spark分布式内存计算框架等相关分布式技术框架来构建社会治理大数据中心(如图1)。
  在数据获取和存储环节,本文基于大数据的相关存储技术,设计采用了混合数据库的数据存储与融合方案[3]。在HDFS(Hadoop Distributed File System,分布式文件系统)和HBase(Hadoop Database,非结构化数据存储的开源数据库)框架基础上,综合传统的RDBMS(Relational Database Management System,关系型数据库管理系统)和NoSQL(Not Only SQL,泛指非关系型的数据库)的优势,使用图数据库(Graph Database)[4]、HBase列式数据库、Hive数据仓库、MongoDB[5]、Elasticsearch集群[6]和Redis集群[7]等多种存储管理方式,在一个物理空间或行政区域(包括市、区、街道、社区等)内对涉及社会治理和综合服务的人、事、情等各类数据(包括社会治理的基础数据、业务数据、附件文本、工作数据、地图底图矢量和影像文件等)提供一体化、高性能的存储和管理,通过各类多源数据汇聚、比对、评估、治理、建库,构成社会治理大数据中心,提供社会治理和综合服务所需的数据底板,为业务模型引擎和空间大数据服务引擎提供基础数据,为各类业务功能模块、大数据分析应用、可视化分析决策应用等提供数据支撑。
  2.2 各类存储方式的特点及区别
  Hadoop是一个能够对大量数据进行分布式处理的软件框架。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上,提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集的应用。HBase是基于HDFS实现的分布式的、面向列的开源数据库,提供快速随机访问海量结构化数据的功能,弥补了HDFS对小数据量随机读写的缺点。Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载。这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制,即HDFS为HBase提供了高可靠性的底层存储支持,它存储 Hadoop集群中所有存储节点上的文件。Hive则为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的非常简单。
  图数据库是一种NoSQL数据库,它的关注点是“关联关系”形成的图,其目标是对现实世界中的实体与实体之间的关联关系进行存储与分析,能直观、自然地表达万物关联的世界,同时解决复杂关联关系深层检索的性能问题。
  MongoDB是一个介于关系数据库和非关系数据库之间的分布式文件存储的数据库。它采用面向集合(Collection-Oriented)存储,非常适宜存储对象类型的数据。
  Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎,能很方便地使大量数据具有搜索、分析和探索的能力。
  Redis是一个高性能的内存级的key-value数据库,具有查询速度快、存放数据量大、支持高并发的特点,非常适合高频次的查询。
  2.3 社会治理数据的存储和融合方案
  综合上述存储技术的优势和特点,本文设计采用PostgreSQL存储管理海量的空间位置、矢量图形,以及业务分析的结果数据等结构化数据;采用HDFS存储管理大规模的人口、房屋、法人、事件等结构化数据,以及居住人口照片、企业法人证照、隐患治理文本图集等非结构化数据;采用Elasticsearch存储管理海量的业务实时采集数据、物联监测视频数据和工作位置轨迹数据;采用MongoDB存储管理社会治理和综合服务的区域地图底图矢量图层瓦片数据;采用Redis存储管理有高访问需求的业务分析过程数据;采用图数据库存储管理元数据。   3  龙岗区社会治理数据的存储与融合处理
  3.1 龙岗区社会治理数据的现状
  龙岗区地处深圳市东北部,辖区总面积388.21km2(不含大鹏新区)。截至2018年,常住人口238.64万人,其中户籍人口72.78万人。2018年龙岗区生产总值4287.86亿元,总量居全市第二。从2008年开始探索社会治理至今,深圳市龙岗区一直在不断推进社会治理工作,已完成了社会综合管理、网格信息化管理、社会隐患治理、网格队伍管理、网格管理可视化平台等一系列的业务工作平台和队伍管理平台的建设,为参与社会治理和综合服务的政府部门和社会公众提供了高效的社会治理机制和服务模式,跑出了社会治理的时代新速度,也迎来了社会治理智能化的新挑战。
  截至2019年底,社会治理各业务系统产生和管理的数据包括:460多万实有人口;17万多栋楼宇280多万间出租屋;19万多家法人企业;近120多万件矛盾纠纷和问题隐患事件;覆盖龙岗区11个街道、111个社区、3823个工作网格;管理3600多个网格员和3800多台网格终端设备;以及通过龙岗区时空信息云平台、龙岗区数据共享超市、深圳市社区网格管理信息系统和广东省综治信息系统,对接获取的辖区内二/三维电子地图、遥感影像、工商、社保、4个实有数据(人、房、法、事件)、雪亮工程视频及门禁视频等数据。
  3.2 MapGIS DataStore构建龙岗区社会治理大数据中心
  为解决龙岗区社会治理大数据中心的数据存储与融合问题,我们选用了中地数码集团的MapGISDataStore产品[8]。MapGISDataStore是一個国产化的基于分布式数据库引擎的混合地理数据库。
  如图2所示,MapGISDataStore分布式存储全面支持目前的主流商用或开源分布式数据库平台,包括MongoDB、Elasticsearch、HDFS和HBase等,支持存储和管理关系型、瓦片缓存型、实时数据以及非结构化数据等常用数据类型。PostgreSQL能够单图层管理亿级矢量数据;MongoDB能够存储管理百亿级瓦片,提供高并发响应能力;ElasticSearch管理海量实时数据,提供高效的检索能力;HDFS存储大规模影像、文本等非结构化数据;其与传统的空间数据引擎MapGIS SDE进行无缝融合,通过基于规则的数据目录实现各类空间、非空间数据的一体化存储和管理,实现多源异构数据物理上的分布,逻辑上的统一。MapGIS DataStore同时提供安装部署工具、ETL工具和管理维护工具,实现各种数据库的安装部署和维护。
  如图3所示,以MapGIS DataStore产品为基础构建的龙岗区社会治理大数据中心实现了空间数据、实时数据以及社会经济数据等多种数据的快速接入,整合本地、HDFS、MapGIS GDB、ElasticSearch和PostgreSQL等多种数据来源,形成大数据管理目录,提供大数据集及元数据基础信息达成了多源社会治理数据的存储与融合的目的。
  4  结语
  智能化是社会治理创新的新动力。采用混合数据库技术,通过对社会治理工作中历史积累及实时采集的数据进行统一存储和融合分析,将人口数据、法人数据、房屋数据、矛盾纠纷和问题隐患事件数据,与地图数据相结合,深入挖掘数据潜力和价值,革新传统社会治理方式,辅助社会治理主体进行创新,将进一步提升社会治理的专业化水平。
  参考文献
  [1] 陈娟,李炜.非关系型数据库与关系型数据库技术综述[J].电子技术与软件工程,2020(18):147-148.
  [2] 洪漪,赵栋祥,赵一鸣.大数据环境下的信息架构与数据模型[J].信息资源管理学报,2018,8(1):29-38.
  [3] 肖光昭.基于SQL和NoSQL的混合存储系统的设计与实现[D].北京:北京理工大学,2016.
  [4] 杨振,万为清.图数据库的研究和应用[J].电脑编程技巧与维护,2020(12):91-93.
  [5] 李纪伟,段中帅,王顺晔.非结构化数据库MongoDB的数据存储[J].电脑知识与技术,2018,14(27): 7-9.
  [6] 徐伟杰,王挺,薛婉婷. 基于ElasticSearch的搜索引擎设计与实现[J].智库时代,2019(23):218,240.
  [7] 陈忠菊.NoSQL数据库的研究和应用[J]. 电脑编程技巧与维护,2020(9):81-83.
  [8] 中地数码,MapGIS大数据与云平台产品白皮书[Z].2019(5).
其他文献
干旱是影响玉米生产的主要限制因子,为创制玉米耐旱性种质,以CIMMYT引进的耐旱种质CML 538、CML 539和普通玉米自交系PH 6 WC、QR 273、LX 9081为材料,利用常规技术构建回交群体,采用分子标记辅助选择(Marker assisted selection,MAS)技术,将耐旱主效基因渗入普通玉米自交系中。从构建的6个群体,经分子标记辅助选择,共获得22份材料,其中,dhn1渗入的材料1份,dhn2渗入的材料19份,同时渗入dhn1和dhn2的材料2份。经种子萌发期耐旱性鉴定,与轮
以杜鹃兰类原球茎为材料,研究基本培养基、不同激素配比和绘制类原球茎增殖生长曲线,获得类原球茎增殖的最适条件。结果表明,杜鹃兰类原球茎快速增殖最佳培养方案是基本培养基为B 5,转接入B 5+6-BA 0.3 mg·L-1+NAA 1.0 mg·L-1+IBA 0.5 mg·L-1+IAA 0.3 mg·L-1+活性炭1.0 g·L-1+土豆泥30.0 g·L-1培养基中,经过4
以不同季节的菝葜带芽茎段、茎尖及带芽根状茎为材料,以MS为基本培养基,对外植体进行不同消毒方法和防褐变处理,附加不同种类和浓度的植物生长调节物质诱导丛生芽,探寻菝葜丛生芽的最佳诱导方法。结果表明,菝葜带芽茎段是最佳外植体、取材的适宜季节是春季,最佳消毒方式是75%酒精浸泡30 s,用0.1%升汞处理7 min。菝葜丛生芽诱导的最佳培养基是:MS+6-BA(2 mg·L-1)+NAA(0.1 mg·L-1)。用PVP(2 g·L-1)浸泡20
以结缕草(Zoysia japonica Steud)、高羊茅(Festuca elata Keng ex E.Alexeev)、黑麦草(Lolium perenne L.)、狗牙根(Cynodon dactylon(L.)Pers.)和早熟禾(Poa annua L.)为试验材料,设置30%(T 1)、60%(T2)和100%(T3)等3个再生水灌溉浓度,以清水灌溉为对照(ck),测定了不同浓度再生水灌溉对种子萌发和萌发过程中活性氧代谢及激素含量的影响。结果表
为客观评价披碱草属种质资源农艺性状的遗传多样性,对22份野外采集的披碱草属种质资源的15个农艺性状进行形态多样性指数分析,并对其进行相关性分析、聚类分析和主成分分析。结果表明,株高的遗传多样性指数最高(H′=1.8946);小花数变异系数(CV)最大(29.94%);株高与茎粗、旗叶长、旗叶宽、倒2叶长、倒2叶宽呈极显著正相关(p<0.01);聚类分析将22份披碱草属野生种质资源分为四个类群,第Ⅰ类群包括9份种质,具有穗长和花序长最短、花序小穗数最少等特点;第Ⅱ类群包括4份种质,具有最长茎长(包括花
为探讨新疆褐牛体重与体尺指标间的相关性及构建不同生长阶段的回归方程,为新疆褐牛选育提供直接而有效的方法,以伊犁地区2011—2019年6月龄、12月龄、18月龄、24月龄新疆褐牛为对象,测定4个生长阶段的4个体尺指标和体重并进行相关性分析和逐步线性回归分析。新疆褐牛不同生长阶段体重和体尺指标间存在着极显著的(P<0.01)相关性,12月龄的体尺指标与体重的相关性较其他生长阶段更高,其他体尺指标间也存在着极显著相关性(P<0.01)。通过新疆褐牛不同生长阶段估测体重的回归模型,得到了6月龄、12
摘 要:随着人工智能技术的飞跃式发展,人类社会生活的诸多领域面临着前所未有的变革。近几年来,人工智能技术与日常办公系统不断深度融合,大幅度增加了办公系统对数据资源的应用与管理效率,日常办公流程化、办公环境个性化、服务保障便捷化,将有望在人工智能技术的支持下实现。基于此,本文将简要介绍日常办公系统中人工智能技术的典型应用,并在此基础上展望AI时代下人工智能技术在日常办公系统的应用前景。  关键词:人
以20个萱草品系为试材,采用田间自然干旱的方式对萱草进行干旱胁迫,测定叶片萎蔫级别、叶片相对含水量、失水率、相对电导率指标,通过隶属函数综合评价20个萱草品系的耐旱性,并采用聚类分析的方法对20个萱草品系进行分析。结果表明,随着自然干旱胁迫的加剧,20个品系萱草叶片萎蔫级别均呈现上升趋势、以太谷1号最为明显;叶片相对含水量呈逐渐降低趋势,交城3号萱草降幅最小;叶片失水率呈逐渐增大的趋势,当土壤达到重度干旱时,美国72的失水率达到最大;叶片相对电导率呈逐渐增大的趋势;综合隶属函数值可将萱草耐旱由强到弱排序:
为了比较华北落叶松1代种子园不同种源的288个无性系的种子品质,对种子千粒重、饱满率、发芽率等特性进行了测量分析。结果表明,华北落叶松种子园5个种源和288个无性系间的种子品质均差异显著,有选择的潜力;河北蔚县种源的种子千粒重和发芽指数最高;山西浑源种源的种子千粒重和饱满率最小,但其发芽指数高;河北围场、滦平和阜平种源的种子品质相差不大。种子园无性系千粒重为3.5127~7.2628 g,饱满率为40.89%~95.55%,98%以上的无性系发芽率高于60%,为Ⅰ级种子;发芽高峰出现在第5天,有90%以上
摘 要:随着滨海核电厂址开发难度的逐渐加大,近岸海岛因其独特的陆海资源优势和区位条件成为核电发展的重要选择之一,但同时近岸海岛核电厂址又不得不在行政审批、环境保护、应急等方面面临特殊的困难。本文针对近岸海岛核电厂址与滨海核电厂址相比的主要特点进行分析,并对于海岛核电厂址开发主要关注的重点问题进行探讨,为后续近岸海岛核电厂址的开发提供参考。  关键词:核电 近岸海岛 滨海 选址  中图分类号:TM6