论文部分内容阅读
本课题来源于国家自然科学基金资助项目——“基于Ontology的文本中空间关系的三维可视化研究”(简称文景转换),该项目以基于Ontology的自然语言文本到相应的三维动态虚拟场景转换与生成机制为主要研究内容。由于动态场景需要以动作为线索,就必须首先应用自然语言处理技术,要全面地理解和提取文章中的动词信息。因此提出了面向该领域的语义角色标注的研究与实现。语义角色标注是语义分析的一种主要实现方式,采用“谓语-角色”的结构形式,标记句子中的成分作为给定谓语的语义角色,包括施事、受事、时间、地点等。在本文的语义角色的识别和分类中,主要采用两类学习方法:基于最大熵模型的统计机器学习方法;基于Kernel的学习方法。本文的主要研究内容:(1)介绍了目前用于本研究的《伊索寓言》语料库的构建,包括:动词在文章中出现频率的统计;动词的聚类;选择待标注单元;确定要标注的语义角色类型;确定待标注的典型动词;仿照CPB的标注形式完成标注。(2)给出了完整的中文语义角色标注系统的设计方案,主要包括5部分:预处理,自动标注,后处理,评价方法和对系统的改进策略。(3)详细描述了该领域内基于最大熵模型的语义角色标注系统的实现:以句法成分作为待标注单元;根据剪枝规则,删除大部分不可能是语义角色的节点;利用最大熵模型,对候选节点进行识别和分类。在基础特征空间上整体F值达到60.185%;在上述系统中加入扩展特征空间,整体F值达到61.027%。使用了后处理规则,整体F值提高到63.862%。(4)详细描述了该领域内基于Kernel的语义角色标注系统的实现:给出了一种从特征构造出来的核函数PAK,将PAK嵌入到libSVM中,在《伊索寓言》语料上对前述的六类论元进行识别和分类,得到整体的精确率为65.321%。为了测试PAK对于角色识别系统的贡献,增加了一组对比实验,利用SVM中的多项式核函数,在相同的语料上进行实验,得到整体的精确率为69.028%。显然,这两组实验的整体效果要超过基于最大熵模型中的利用特征的分类效果。