面向三维场景生成的中文语义角色标注方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:reg8c4user
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本课题来源于国家自然科学基金资助项目——“基于Ontology的文本中空间关系的三维可视化研究”(简称文景转换),该项目以基于Ontology的自然语言文本到相应的三维动态虚拟场景转换与生成机制为主要研究内容。由于动态场景需要以动作为线索,就必须首先应用自然语言处理技术,要全面地理解和提取文章中的动词信息。因此提出了面向该领域的语义角色标注的研究与实现。语义角色标注是语义分析的一种主要实现方式,采用“谓语-角色”的结构形式,标记句子中的成分作为给定谓语的语义角色,包括施事、受事、时间、地点等。在本文的语义角色的识别和分类中,主要采用两类学习方法:基于最大熵模型的统计机器学习方法;基于Kernel的学习方法。本文的主要研究内容:(1)介绍了目前用于本研究的《伊索寓言》语料库的构建,包括:动词在文章中出现频率的统计;动词的聚类;选择待标注单元;确定要标注的语义角色类型;确定待标注的典型动词;仿照CPB的标注形式完成标注。(2)给出了完整的中文语义角色标注系统的设计方案,主要包括5部分:预处理,自动标注,后处理,评价方法和对系统的改进策略。(3)详细描述了该领域内基于最大熵模型的语义角色标注系统的实现:以句法成分作为待标注单元;根据剪枝规则,删除大部分不可能是语义角色的节点;利用最大熵模型,对候选节点进行识别和分类。在基础特征空间上整体F值达到60.185%;在上述系统中加入扩展特征空间,整体F值达到61.027%。使用了后处理规则,整体F值提高到63.862%。(4)详细描述了该领域内基于Kernel的语义角色标注系统的实现:给出了一种从特征构造出来的核函数PAK,将PAK嵌入到libSVM中,在《伊索寓言》语料上对前述的六类论元进行识别和分类,得到整体的精确率为65.321%。为了测试PAK对于角色识别系统的贡献,增加了一组对比实验,利用SVM中的多项式核函数,在相同的语料上进行实验,得到整体的精确率为69.028%。显然,这两组实验的整体效果要超过基于最大熵模型中的利用特征的分类效果。
其他文献
随着计算机技术的高速发展,计算机系统被广泛的应用于航空航天、军事国防、医疗卫生等高可靠性领域,人们对计算机系统在软件和硬件方面的可靠性要求也大大提高。因此,计算机
寻求新型有效的压缩方法始终是数字媒体领域的关键问题之一。基于内容的压缩代表着新一代的压缩方法,也是本课题所提出的冗余内容压缩方法的来源。传统的数据压缩算法中,通常没
网络环境下,多样化的传播途径和复杂的应用环境使网络蠕虫发生频率增高、潜伏性变强、覆盖面更广。不断给网络造成的巨大危害表明,传统的防病毒技术已不能满足网络蠕虫防治的
与文本无关的说话人识别的研究,由于其实用性,成为当今语音识别领域中的热门课题,经过几十年的发展,已经取得了巨大进展。尽管在实验室环境下,说话人识别系统已经取得了比较
学位
在生物信息学研究中,蛋白质二级结构预测是重要的研究内容之一。从氨基酸序列来预测蛋白质二级结构,这本身就是我们理解蛋白质结构和功能的重要一步。在分子生物学中,若能成
随着无线射频识别(Radio Frequent Identification, RFID)和传感器等电子数据采集设备(Electronic Data Gathering Equipment, EDGE)的广泛应用,产生了空前海量的事件类型数
近年来,随着互联网的普及,音频流媒体以其低成本和方便性得到了广泛的应用。但是现在的因特网只能提供被称之为尽力而为(best-effort)的服务,网络的拥塞将导致丢包和延迟现象
互联网信息技术和电子商务的日新月异,使得方便快捷的网络购物成为一种不可或缺的购物方式。网络上的服饰商品数量类型繁多,怎样从中有效地搜索到目标商品是决定消费者是否发
随着网络技术的发展和普及,计算机系统的安全性越来越受到人们的关注。由于计算机系统存在多种安全性缺陷,所以在计算机系统的设计和开发过程中,如何测试系统的安全性,是开发