论文部分内容阅读
智慧城市能够有效运用信息和通信技术实现感测、分析、整合城市运行系统的各项关键信息,从而对于包括公共安全、城市服务、建筑节能在内的各种需求做出智能响应,为人类创造美好的城市生活体验。然而对于不同的城市运行系统,其采用的数据表示及传输技术不尽相同,想要整合多建筑单位的智能化系统数据,打破“信息孤岛”,实现高质量数据融合,就迫切需要找到连通各类数据的有效‘媒介’。建筑地址作为社会普遍认可的建筑方位表示载体,由于其良好的地址信息表述形式,是每个建筑唯一且固定的编码方式,正是智能建筑系统数据融合的良好媒介。结合地理编码技术,还能够实现建筑地址上图;通过搜索就能够在地图上快速定位建筑位置,抽取建筑物体数据,为各类系统优化提供信息技术支撑。但建筑地址也存在其自身的问题,例如中文地址规划起步晚,没用统一的地址标准;各机构采用的地址标准不一;中文地址的表达随意,匹配工作量大,匹配难度高等。因此统一地址表述标准,实现标准地址和多机构地址之间的精准匹配,是亟需解决的问题。针对以上问题,本文根据某市公安系统及其他能源供应系统提供的地址数据,训练基于卷积神经网络的地址匹配模型,实现公安标准地址与其它能源供应单位地址的快速精准匹配。由于建筑地址的数量大且存在语义分歧,传统如穷举匹配等方法无法有效应用。因此,本文首先对地址数据进行快速淘洗,为每个查询地址快速找到十条相应的标准候选地址,将匹配问题从数十万项的候选空间缩小到十条数据项;随后,针对训练神经网络模型需要标准训练数据的问题,本文使用众包标注技术,将数据标注任务分解并发布给多个标注者,快速获取高质量的标注数据;接着,本文通过分析建筑地址语义一般规律和层次结构,对地址进行了细致分割;最后基于DSSM网络设计并实现了一对多的地址匹配系统,取得了83%的匹配精度。为了实现地址匹配的可视化工作,本文还结合百度地图API,实现了地址上图。