基于知识图谱的地理实体关系构建研究

来源 :北京建筑大学 | 被引量 : 4次 | 上传用户:wodelqm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,网络中存在着海量的地理数据,但是想要从互联网中将这些大量的、类型多样的数据中抽取出地理实体关系或结构化地理信息较为困难。知识图谱是一个语义网络,其作用在于对现实中的实体与实体之间的关系进行描述,在众多领域都有运用。从网络中抽取地理信息,然后通过知识图谱来获取地理信息知识,是目前这个领域的常用方法。针对当前互联网中海量而又复杂的地理信息利用较为困难的问题,本文以知识图谱为基础,设计了一种在地理领域中基于网络文本的实体关系构建的方法,其主要内容包括:(1)针对地理信息采集之后网络文本过于繁杂的问题,本文建立一个以TF-IDF算法为基础的文本分类方式,首先在文本预处理中添加地理词典,然后通过建立文本向量空间模型,并修正TF-IDF地理特征权重运算方式,最后选择K临近算法来实现文本的分类。本研究利用地理词典来处理特征维度,能够使其维度进一步降低,而修正的特征权重运算方式可以对分类结果进行优化,从而进一步清除不属于地理的网络文本。(2)一般只有存在海量人工标注的语料时才可以实现关系构建,同时这种以弱监督回标为基础的构建模式,在获取训练语料的过程中常常出现大量的噪声,而且还会出现语料数量不足的缺陷。对于上述现象,本文在开始阶段就建立一个三元组扩充算法,该算法以关系特征词同义扩展为基础,进一步实现更多训练语料的检索匹配,从而获取更多的训练语料。然后,利用关系特征词过滤语料,实现语料的优化目的,再通过三元组回标文本过程,获取句子得到训练语料。因此,这些句子中含有了与实体相联系的关系特征词,从而实现了噪声的降低。研究结果表明,本文采用的方法可以大大降低语料噪声,同时解决语料数量不足的问题,对以后的实体关系抽取具有重要意义。(3)对于类型存在差异的实体关系构建过程,本文设计了两种构建方式。其一就是运用最大熵模型进行实体关系的构建,这种方式基于关系分类理论,利用n-pattern特征提取模式,对每种关系文本的不同之处进行表征,实现限定类型的关系构建;第二就是将句法分析树与CRF相结合的构建方式,这种方法以句法分析及序列标注为基础,能够构建出全部类型的关系。研究结果证明了本文建立的这两种方式的结果较为准确,相比于目前的人工实体关系构建模式,效率有了极大提高。
其他文献
目的:对阑尾炎围术期患者抗菌药物应用情况进行分析。方法;选取入住我院的200例阑尾炎患者进行研究。结果:本组200例阑尾炎患者围术期抗菌药物使用率为100.00%,涉及4类18种抗
朗读是培养小学生语感的基本手段之一,因为语感是对于语言文字吸收内化的感受,而朗读是感受语言材料的过程,是通过感知使语言材料所描写的客观事物变成读者内心情感体验的过
5G的深度、广度和精度远超3G、4G,伴随着诸多机会和不确定性。
目的研究外源性Notch1过表达对慢性粒细胞白血病细胞株K562增殖和细胞周期的影响。方法用脂质体将携带Notch1胞内段(ICN1)的质粒转染入K562细胞,倒置相差显微镜观察转染前后K
教学媒体是教育技术的重要组成部分,教学媒体技术的发展与运用改变了教学理念,推进了教学模式发展和创新。本文分析了不同时期教学媒体的技术发展推动教学模式的创新情况,并对现