基于多标签分类的空间关系抽取研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:callingme
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术、地理信息技术的不断发展,地理信息系统在公众生活中扮演着越来越重要的角色。文本作为自然语言最常用的载体,是一种重要的原始空间数据来源。从自然语言文本中抽取空间关系信息是一个迫切需要解决的问题。空间关系抽取是一种特殊的中文实体关系抽取,其特殊性主要体现在一个空间关系实例可能同时属于若干个不同的空间关系类别。因此空间关系抽取问题不是传统的单标签分类问题,而是一个多标签分类问题。本文对空间关系抽取问题进行了探索性和实验性研究,主要工作如下:1、基于特征向量和问题转换法的空间关系识别Baseline系统实现。空间关系识别的主要任务是确定关系实例所属的标签集合,本质上是一个多标签分类问题。该方法通过问题转换法把多标签数据转换为单标签数据,将关系实例表示成特征向量形式,分别使用KNN和SVM算法为每个标签学习一个分类器。对于待测样本,每个分类器分类结果的组合即为待测样本的标签集合。在2799个地理实体对上进行实验,获得的精确率为78.68%。2、基于核函数和ML-KNN算法的空间关系识别。该方法使用ML-KNN算法直接对多标签数据进行实验,并采用不同核函数来度量关系实例间的相似度。其中主要使用了扩展子序列核、卷积树核、改进的卷积树核以及它们的复合核。在同一数据集上进行实验,由扩展子序列核和改进的卷积树核构成的复合核取得最佳性能,精确率为79.16%,优于基准系统的实验结果。3、空间关系检测和识别的集成。空间关系抽取的任务是判断给定地理实体对之间是否存在空间关系并确定存在的具体关系类型,包括空间关系检测和识别两个子任务。为实现完整的空间关系抽取,文中采用两种方法对空间关系检测和识别进行集成:“分步集成法”与“组合式集成法”。采用这两种方法在同一数据集(8908对反例和2799对正例)上进行实验,最终获得的精确率为63.48%。
其他文献
电信综合网管系统的目标是要最大限度地利用电信网络资源,提高网络的运行质量和效率,向用户提供良好的通信服务。这需要集成不同类型的网络环境,采用先进的计算机网络管理技
互联网的发展使得因特网成为当今社会的主要信息交流平台。由于网络用户激增,网络应用层出不穷,接入国际互联网的带宽似乎永远不够用。但是从网络管理的角度来说,网络带宽资源只
随着数字校园现代化建设的不断发展,文件的数量和访问量不断上涨,传统的文件存储系统正逐渐被分布式云存储系统所取代。分布式云存储系统可以有效地解决数字校园环境下大容量
本文介绍了将一个基于数据库的文件系统移植到Linux 操作系统上的设计与实现,该方案在不改变传统文件系统的命令访问接口和应用程序接口基础上,使用兼容POSIX 标准的接口,为
随着多媒体数据(图像、视频和音频)的爆炸式增长,人们急需一种能够方便多媒体数据库管理和访问的技术,基于内容的多媒体检索(CBMR)应运而生。基于内容的图像检索(CBIR)是CBMR的
由于各种数字视频的应用,都对视频图像的质量有不同程度的要求,而在很多情况下,由于拍摄环境与条件的限制,获得的视频图像会产生抖动与信息丢失等现象,给观测者和后期处理带
感知组织包括感知分割及前背景组织,在人类视觉认知过程中起到一个基础且承上启下的作用。其中,感知分割的作用是将从视网膜得到原始图像信号及物体边缘轮廓信息加以处理从而
随着数据中心的应用越来越广,对多数据中心数据共享的要求也越来越迫切。然而,多中心的各存储系统设计架构不同、接口迥异,给统一管理、有效存储、数据检索和更新带来困难;另
在人工智能领域,不确定的动态环境下的重搜索问题的求解空间、时间复杂度都是比较大的,如何改进算法以提高重搜索效率就成为研究者们一直关注的问题。在近两年研究成果基础上,本
无线传感器网络(WSN)已被确定为本世纪最具前瞻性的技术之一,已经被应用在多个方面。随着无线传感器网络的广泛应用,它本身的安全性,可靠性和隐私保护的问题等就更为重要。因为