互联网多源矢量空间数据自动获取与管理方法研究

来源 :中国测绘科学研究院 | 被引量 : 7次 | 上传用户:lgfgdf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
开展互联网条件下的多源矢量空间数据获取与管理方法的研究,能够实现对互联网中广泛存在的多源矢量空间数据进行高效的获取、解析与管理,为GIS空间分析和空间数据挖掘提供更为丰富和实时的数据源,为大数据时代的地理信息技术研究提供便利。本文重点研究互联网条件下的矢量空间数据获取与管理技术。针对一般聚焦爬虫数据爬取方式单调、爬取效率低等问题进行优化,提出基于多线程并行和异步I/O模型的方法协同提升Web矢量空间数据获取的效率;针对多源异构的矢量空间数据结构,研究一种基于模板映射的数据解析方式,相比常规Web数据解析中使用的正则表达式解析法在准确性和稳定性方面均有提升;针对Web矢量空间数据结构复杂多变的问题,研究基于MongoDB对矢量空间数据进行对象化存储,有效的降低了空间数据管理的复杂度。本文的主要工作包括:1)提出了一种多策略并行的Web矢量空间数据高效获取方法。基于聚焦爬虫技术,在研究了多种开源爬虫框架的基础上,提出通过多线程和异步I/O两种策略,优化矢量空间数据的获取效率。2)提出基于模板映射的多源矢量空间数据自动解析技术。通过将结构化和半结构化文本数据转化为树状结构对象,基于给定的模板对互联网中的异构矢量空间数据进行解析,相比传统的正则表达式解析法来说,本方法在维持较高的解析准确度的基础上,通过模板映射技术有效提升了解析的稳定性。3)提出一种基于MongoDB数据库的多源矢量空间数据对象化存储方法,可管理由Web爬虫获取到的矢量空间数据。并提出了一系列REST数据管理API,实现矢量空间数据在云环境下的管理。4)基于上述方法,构建NetCrawler爬虫系统,实现了互联网条件下多源异构矢量空间数据的快速获取、解析与管理。并通过测试证实了所述方法的有效性。
其他文献
2003年国家发改委等五部门联合下发了《棉花质量检验体制改革方案》,提出力争用5年左右时间,建立起符合我国国情、与国际做法接轨、科学权威的棉花质量检验体制。如今5年时间过
有些高档名牌手表上印有“GENEVE”,此为何意?GENEVE(中文译为:日内瓦)印记原本是为了要保障真正在日内瓦地区制造出的顶极好表,避免与其它地方或国家制造出的表(包括高品质和低劣
每天,穿梭在城际间的时空隧道,不期而遇的同道中人。注定要走到一起。相通的语汇,无言的对白,疏离遥远的心灵,在瞬间彼此找寻着……慢慢靠近……