论文部分内容阅读
本论文的研究工作是一个面向自然语言处理的现代汉语语义资源建设系统工程“现代汉语框架语义知识库构建”的一部分,即以Fillmore的框架语义学为基础,构建基于语料库的现代汉语框架语义知识库。本文承担的工作包括:(1)通过引进、消化、吸收语言学理论和国外已有语义知识库项目成果,初步确立构建现代汉语语义知识库的基本体系和技术路线;(2)通过对一个小范围、小规模的现代汉语框架语义知识库的构建技术的具体研究,对该体系和技术路线进行应用性实践。全文共六章。第1章分析了认知科学背景下自然语言处理技术的发展方向以及目前的处理水平,以此为背景,确立了本论文研究的方向为现代汉语语义知识库的构建。在考查当前几种主要的语义知识库工程的基础上,认为基于认知的框架语义学和美国加州大学伯克利分校的FrameNet数据库最符合自然语言语义处理技术的要求,从而确定本文的研究工作是将框架语义学以及FrameNet的理论原则和体系思想吸收到汉语语义知识库的构建工作中,并探讨如何结合汉语实际,构建汉语框架语义知识库(Chinese FrameNet,简称CFN)。第2章立足于构建语义知识库的实际需要,有侧重地对Fillmore的框架语义学的基本思想进行引介;然后对基于框架语义学理论的语义知识工程FrameNet进行调研,考查其语义知识表示体系和内容,吸收其语义知识描述方法,从而指导汉语框架语义知识库的构建实践。第3章着眼于构建汉语框架语义知识库的整体研究,介绍该研究的语料和软件准备情况,通过比较和论证,确立构建语义知识库的技术路线,在吸收FrameNet已有方法的基础上进一步提出构建汉语语义知识库的基本原则。第4章利用以上技术路线和构建原则,以现代汉语中表示认知活动的词语为研究范围,尝试构建现代汉语认知活动框架库。本章首先明确研究对象的范围,解决哪些词语是表示认知活动的词语的问题;然后通过实践探讨如何确定框架类别、如何定义和描述框架语义知识。第5章以认知活动框架库为主要素材,从真实例句的标注中总结框架语义标注方法和词汇库构建方法。例句标注部分从句法功能类型、短语类型和框架元素标注三方面加以总结,重点讨论如何处理句法和语义不一致造成的一些特殊情况,并通过比较其他语义标注语料库的研究,明确CFN框架语义标注的特点。关于词汇库的构建方法,主要确定词语释义方法,研究标注报告体系和抽取方法,并通过具体的构建结果说明词汇库的应用价值。第6章对全文的研究工作进行总结,包括具体的研究成果以及研究工作中产生的一些对语言学研究的思考,最后对进一步的研究工作进行了比较具体的规划。就理论方面来说,本文首次将Fillmore的框架语义学思想引入汉语词汇语义分析;在实践方面,则用语料库方法对构建现代汉语框架语义知识库做了探索性研究,并得出了具体成果。其直接意义在于为中文信息处理的语义分析提供语义知识库构建方法和具体构建成果;同时,对于现代汉语本体研究来说,本文提供的丰富的语义描写则可以深化对语言本体的认识。