论文部分内容阅读
随着互联网技术、地理信息技术的不断发展,地理信息系统在公众生活中扮演着越来越重要的角色。文本作为自然语言最常用的载体,是一种重要的原始空间数据来源。从自然语言文本中抽取空间关系信息是一个迫切需要解决的问题。空间关系抽取是一种特殊的中文实体关系抽取,其特殊性主要体现在一个空间关系实例可能同时属于若干个不同的空间关系类别。因此空间关系抽取问题不是传统的单标签分类问题,而是一个多标签分类问题。本文对空间关系抽取问题进行了探索性和实验性研究,主要工作如下:1、基于特征向量和问题转换法的空间关系识别Baseline系统实现。空间关系识别的主要任务是确定关系实例所属的标签集合,本质上是一个多标签分类问题。该方法通过问题转换法把多标签数据转换为单标签数据,将关系实例表示成特征向量形式,分别使用KNN和SVM算法为每个标签学习一个分类器。对于待测样本,每个分类器分类结果的组合即为待测样本的标签集合。在2799个地理实体对上进行实验,获得的精确率为78.68%。2、基于核函数和ML-KNN算法的空间关系识别。该方法使用ML-KNN算法直接对多标签数据进行实验,并采用不同核函数来度量关系实例间的相似度。其中主要使用了扩展子序列核、卷积树核、改进的卷积树核以及它们的复合核。在同一数据集上进行实验,由扩展子序列核和改进的卷积树核构成的复合核取得最佳性能,精确率为79.16%,优于基准系统的实验结果。3、空间关系检测和识别的集成。空间关系抽取的任务是判断给定地理实体对之间是否存在空间关系并确定存在的具体关系类型,包括空间关系检测和识别两个子任务。为实现完整的空间关系抽取,文中采用两种方法对空间关系检测和识别进行集成:“分步集成法”与“组合式集成法”。采用这两种方法在同一数据集(8908对反例和2799对正例)上进行实验,最终获得的精确率为63.48%。