基于海量文本的语义构建方法研究

来源 :中国海洋大学 | 被引量 : 2次 | 上传用户:chouyez
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展和信息量的急剧增加,如何快速、有效的获取信息越来越受到人们的关注。传统的自然语言处理方法已经逐渐不能人们的要求,如何使用智能化的手段对信息进行加工和处理已经成为一个十分重要的问题。对文本信息进行自动化处理的基础和关键是理解文本的语义,即使用形式化的语义结构表示文本的含义,并且这种语义结构应该是可以被计算机所理解和处理的。目前将文本转化为语义结构的方法主要有基于专家知识的方法和基于数据统计的方法两种,但由于自然语言文本和形式化的语义结构之间存在巨大的差距,因此难以实现良好的转换效果。为了避免直接从自然语言映射到语义结构十分困难的问题,研究人员提出了以“谓词-论元结构”为核心的浅层语义分析理论,又称语义角色标注。该理论着眼于词汇层面,主要目的是建立语句中各词汇或短语等句法成分之间的语义关系。浅层语义分析可以被看作是一种通用的语义抽取技术,并且可以作为深层语义分析的基础,因此得到了快速的发展,并被广泛应用于自然语言处理的各个相关领域中。本文在以上成果的基础上,对基于浅层语义分析的海量文本语义构建方法进行了研究,主要包括以下几方面工作:1.提出了一个基于海量文本的语义构建框架。该框架以“谓词-论元结构”为核心,通过语义角色归纳实现了对海量文本的语义角色标注,然后根据“谓词-论元结构”与语义结构之间的映射关系,实现了文本的深层语义构建。2.提出了一种基于多特征的语义角色归纳算法。该方法将语义角色归纳视为一个聚类问题,对于给定的谓词,首先从大规模文本中找到给定谓词的所有论元,然后根据论元的语法结构复杂程度将论元集合划分为简单论元和复杂论元两种类型,并针对不同类型论元,使用不同的特征进行对论元集合进行划分。然后使用一种经过改进的层次聚类算法对划分结果进行进一步合并,最终聚类所得的每一个簇代表谓词的一个语义角色。该方法不需要人工标注的数据,能够自动从大规模文本中得到各谓词的“谓词-论元结构”。3.提出了一种基于语义相似度的谓词-论元结构与本体的映射算法。本文使用本体作为文本语义的描述方式。面向语义构建的本体大多以事件为核心进行组织。本文提出的方法通过计算“谓词-论元结构”与本体中谓词相关事件的语义相似度,建立了“谓词-论元结构”到本体中事件的映射关系,这一映射关系将语言层面的内容与语义层面的内容联系在一起。对于文本来说,在经过句法分析和语义角色标注后,可以通过该映射关系转化为语义结构,形成一个完成的语义构建过程。4.提出了一种语义构建结果的自评价机制。针对不同的语义构建算法对不同文本适用能力不同的现象,本文提出了一种自评价机制。该机制从三个层面对整个语义构建过程中不同阶段的结果进行评价,给出了结果的可信度的度量办法。利用该可信度,可以从结果集中筛选出相对正确的部分。本文提出海量文本语义构建方法一方面利用海量文本的规模优势,实现了文本语义角色的无监督标注,克服了有监督的方法需要大量训练数据的问题,使得语义标注可以在不同领域和语言之间方便的扩展。另一方面,通过“谓词-论元结构”到本体映射关系的自动建立,实现了从浅层语义分析到深层语义分析的转换,形成了一个完整的文本语义构建过程。
其他文献
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
从强硬到妥协──二战期间英、美在波罗的海三国问题上的对苏外交谢清溪1940年6月,正当希特勒忙于指挥征服西欧的战事时,苏联的军队开进了波罗的海沿岸的立陶宛、爱沙尼亚和拉脱维亚
对人类文明和个人成长意义重大的"玩",随着社会物质文明和精神文明的不断发展,尤其是Web3.0时代的到来,呈现出更加丰富多样的形态。人们只有具备以主体意识、规则意识和自我
长期以来作为驱动中国经济增长一支重要力量的对外贸易,进入发展新阶段后必须转向高质量发展,这不仅是应对内外环境深刻变化的需要,也是适应乃至引领我国经济高质量发展的现
莫迪利阿尼是19世纪末20世纪初巴黎画派的主要代表人物之一。莫迪利阿尼以与众不同的绘画手法创造出自己独特的绘画风格。其绘画作品中用线有着崇尚优美意味,用线是精心推敲,
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
正常生理和卵泡发育过程中,颗粒细胞分为卵巢颗粒细胞(mural granulosacell,mGCs)与卵丘颗粒细胞(cumulus cells,CCs),分别表达自身特有的转录。两者有着明确的分工:CCs影响卵母细胞