自动抽取维基百科文本中的语义关系

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:a13600660175
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义Web的构建不仅需要由本体来定义基本知识骨架,同时也需要由遵循本体而定义的实例层知识库来构建内容。虽然语义Web数据逐渐增长,但是实例层的数据却依然较为稀少。语义关系是构建语义知识库的重要组成部分。因此,抽取语义关系实例对语义Web的实现极其重要。维基百科是一个免费的在线百科全书。它也是目前最大的在线知识库之一。在拥有较高覆盖面的同时,其内容也具有很高的准确度。抽取维基百科中的语义关系对知识库的构建具有很大意义。维基百科中,大量信息以文本形式呈现,尽管其中大量结构化信息可以直接作为关系抽取的有效数据来源,但大部分的语义关系仍然需要从自然语言文本中获取。抽取维基百科自然语言文本中的语义关系有两大难点:如何有效的识别维基百科中细粒度的实体;如何基于少量的关系样例获取较高的关系抽取性能。在本文中,首先,我们提出利用维基百科结构化信息来辅助语义关系的抽取。我们借鉴了计算语言学领域的选择约束,创新性的利用维基百科的结构化信息来生成表达语义关系选择约束的特征,并提出了具体的特征选择方法。我们利用这种选择约束特征来识别和验证实体,从而有效辅助基于模式匹配的关系抽取。实验表明选择约束特征极大的提升了关系抽取的性能。此外,考虑到在维基百科文本关系抽取中,我们只能从结构化的信息表格中获取少量关系样例而缺乏相应的关系反例,同时还缺乏一个关系分类层次,因此我们引入了文本分类领域中基于正例的学习算法,创新性的将其应用到关系抽取中(据我们所知,之前尚无研究工作将基于正例的学习算法应用到关系抽取领域)。我们将原有的基于正例的学习算法转换为转导学习并基于此构建一个自训练的学习算法。在实验中,我们发现,传统的多类分类不适合我们的关系抽取任务。实验表明,在关系样例较少的情况下,基于正例的学习算法优于传统的二分类算法(我们随机提供了反例)。在正例训练数据较为稀疏的情况下,自训练算法通过牺牲少量精度来获取召回率提升,从而极大的改进了整体的抽取性能。
其他文献
流媒体系统在教育网中的应用越来越被人们重视,在线教学等流媒体服务正在为高校的教学效率和教学交流作出巨大的贡献。所以,近些年校园网中的流媒体服务越来越普及,大多学校都有
我国水利数学模型的理论和算法与国际水平相比总体已处于先进水平,有些方面甚至已经处于领先水平。然而,一直以来水利行业都采用“自行开发、自行使用”的方式,其中尤以水利
随着计算机技术的飞速发展,计算机已广泛应用于社会的各行各业。目前,许多企事业单位大量运用计算机进行信息的加工、处理,并出现了各类管理信息系统。这些管理信息系统所使用的
随着近年来全球经济跨国、跨地区发展势头增加,商标数量逐年递增。以我国为例,据统计,2001年我国商标注册申请量为27万件,到2004年,年申请量翻了一番,达到58.8万件,截至2005
随着社交媒体、电子商务等的快速发展,图像在信息交流中的作用越来越大,人们对图像信息处理的需求越来越大。人们要求计算机能够更加智能更加自主地实现对图像信息的处理。图
随着计算机符号计算的迅猛发展,在非线性科学中,基于符号计算的变系数模型的解析研究已逐渐成为孤子理论的重要研究方向之一,特别是关于变系数模型可积性质的研究备受关注。计算
现代社会中,由于工作、生活场合不同,很多人需要同时拥有多个号码与不同方面的人进行联系。目前国内移动运营商相继推出了一系列多号业务,但这些多号业务的不足日渐显露,新的
低压电器电弧运动过程三维成像理论及运动机理研究在国内外取得了一定的进展,但作为一种新型电弧研究方法,特别是对电弧运动可视化方面的研究尚处于起步阶段,其技术涉及到电器学
随着信息技术的高速发展,电子图档已逐渐取代传统的纸质图档,在各行各业发挥着巨大的作用。如何从图档数据库中方便、快捷地获取所需图档是一个难题。目前,图档检索一般是基
近年来,无线网络、移动计算、数字家庭技术取得巨大发展,越来越多的基于移动计算技术的新应用不断涌现,其中也包括了如移动三维导航、移动产品展示、数据可视化、掌上游戏等在内