基于网络爬虫的地名数据库维护方法

来源 :地球信息科学学报 | 被引量 : 0次 | 上传用户:djf344010190
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,我国地名数据库建设存在大、中颗粒度地名集中,小颗粒度地名较为缺乏,地名资料陈旧、时效性较低,简称、别名等非标准地名信息和地名的相对位置信息缺失等问题。而地名数据库的更新维护工作主要通过人工测绘手段完成,存在周期长、成本高、效率低等缺点。针对这一问题,本文以现有地名数据库和空间关系词汇为基础,基于Google搜索引擎服务,提出一种以网页资源为数据源,利用网络爬虫技术和地名识别技术,进行地名数据库更新维护的方法。首先,设计以地名为主题的网络爬虫,实现非结构化的网页数据中海量空间敏感网页文本的主动获取;然后,采用HTML DOM技术解析空间敏感网页并应用CRF地名识别模型自动识别网页文本中地名;最后,设计相关算法进行网页文本中地名信息的自动解析,实现新地名和地名空间位置信息的获取,进行地名数据库的更新维护。以"南京师范大学仙林宾馆+西北"为空间检索实例,验证了此方法的可行性。
其他文献
基于VB6.0的工控机数据采集系统,详细说明了系统的设计方法与关键技术。介绍了NHR系列单回路数字显示控制表及横河与工控机间的Modbus协议通讯,实现数据的分布式采集与设定。
以沉积速度、镀层磷含量、稳定常数为评价指标,考察了乳酸在0~10mL/L质量浓度范围内对柠檬酸化学镀镍-磷合金的影响。结果表明,在施镀θ为88℃、pH为4.80的条件下,在0~10 mL/L
文中以二手车电商平台潜在消费者作为调查对象,对影响二手车电商平台的发展的问题进行调研分析,并结合二手车电商平台潜在消费群体现状,研究影响二手车电商平台发展的因素和
目的:对28例骨化纤维瘤(OF)进行系统的临床病理分析。方法:收集蚌埠医学院第一附属医院1998—2015间诊断为OF的临床、影像及病理学资料,进行三型分类,分析性别、年龄、影像、
<正> “9.11事件”以来,网络恐怖主义使美信息安全环境面临极大挑战,保护关键性基础设施特别是信息系统和计算机网络,成为美国家安全战略一项新课题。2002年9月18日,“总统关
为了研制环保、高效的除油剂,选择生物降解性好的阴离子表面活性剂木质素磺酸钠代替十二烷基苯磺酸钠,并复配非离子表面活性剂烷基糖苷及易生物降解的脂肪醇聚氧乙烯醚,同时
本文介绍了太阳能热电联产系统的研究与应用现状,对比分析了非聚光型、聚光型、气冷型、水冷型四类太阳能热电联产系统的性能与优缺点。在此基础上,指出了制约太阳能热电联产
纤维混凝土因可泵性差很少用于索塔锚固区。本试验主要研究纤维混凝土的泵送问题。基于多重复合技术,经过试验优化出的高性能纤维混凝土,搅拌出机后纤维分散均匀,拌合物有良好的
本文分析了IEEE802.1Q协议的工作原理,并以此为基础在Windows平台下对该协议进行仿真,利用其工作原理实现了虚拟局域网(VLAN)模块。该模块包含数据封包,建立通信的连接,发送协议数据
文章在简要认识继电保护状态检修重要性的基础上,结合笔者实际工作经验从各方面阐述了继电保状态检修相关技术措施,具有一定有实际借鉴应用价值。