论文部分内容阅读
行政区划是行政区域划分的简称,是国家为了更好对各地的经济、政治、文化进行分级管理的一种有效手段。行政区划地名信息记载着城市的前世今生,特别是建国70年以来,行政区划地名是中国经济、历史和文化的真实反映,同时也是我国政治、政策和管理的目标体现,具有十分重要的价值和研究意义。自1949年以来,我国行政区划变更信息量十分巨大,但是对这些信息深层次利用较少,特别是对于各个省市的经济、社会、文化发展和研究亟需行政区划地名变更信息和空间数据的支持。随着当前信息时代人工智能技术的飞速发展,特别是知识图谱技术对于多源、异构等海量数据分析和表达的有效性,使得知识图谱技术为行政区划地名信息的处理和时空演变研究提供了一种新的思路和方法。本文开展基于多源数据的行政区划地名知识图谱的构建方法研究,通过多源异构的行政区划地名信息提取、融合、可视化表达等,系统的梳理1949年之后的行政区划地名变更信息,展现建国70年以来行政区划地名演变过程和规律。本文具体的研究内容和取得的成果如下:(1)基于多源数据的行政区划地名特征分析:收集《中华人民共和国行政区划简册》、各省市区地方志、行政区划网和博雅地名网等多源行政区划地名数据,分析各种来源的行政区划地名数据的优势和不足,采集权威、全面和互补的行政区划地名数据,形成行政区划地名演变信息,并分析行政区划地名及其演变信息的时间特征、空间特征和属性特征。(2)行政区划地名演变信息提取方法:研究基于规则模型的时间信息提取方法、基于Bi-LSTM和CRF集成的行政区划地名提取方法、基于Bi-LSTM和双层Attention集成的行政区划地名沿革关系提取方法、基于百科知识库和词向量的行政区划地名语义消歧方法和基于属性知识库的行政区划地名属性填充方法对行政区划地名演变信息进行信息提取。实验结果表明,基于规则模型的时间信息提取方法在行政区划地名演变信息中提取准确率为99.12%,召回率为98.14%,F值为98.63%;基于Bi-LSTM和CRF集成的行政区划地名提取方法在混合语料上的提取准确率为95.09%,召回率为93.17%,F值为94.12%;基于Bi-LSTM和双层Attention集成的行政区划地名沿革关系提取方法在行政区划地名演变信息中提取准确率为97.61%,召回率为93.76%,F值95.65%。(3)行政区划地名知识图谱的构建及应用:研究基于图数据库Neo4j的行政区划地名存储和可视化表达,以及行政区划地名统计分析和时空演变模式分析,挖掘行政区划地名的演变规律和特征。基于行政区划地名知识图谱开展行政区划地名属性信息和沿革关系查询应用;基于2015年安徽省乡镇区划矢量图和行政区划地名沿革关系信息,进行安徽省区县级以上行政区划地名1949年以来的空间范围推演,构建行政区划地名时空数据库,开发基于知识图谱的行政区划地名时空信息可视化联动平台,实现行政区划地名知识图谱和行政区划地名时空范围的关联和表达。