面向童话故事的中文指代消解研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:nibeibei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息呈爆炸式增长,人们对信息精确定位的需求促进了自然语言处理技术的研究。指代消解是自然语言理解中的重点和难点之一。它一方面综合了多种自然语言处理技术,如词性标注、名词短语识别、句法分析等;另一方面,在一些自然语言处理的应用技术中,如文本摘要、问题回答等,它又是一个重要的组成部分。  在中文的各种文本中,大量使用了人称代词,形成很多的指代关系,人称代词的指代消解便成为中文文本指代消解工作的一个主要内容。本文主要研究伊索寓言中文语料中人称代词的指代消解。主要包括以下几个部分内容:  1.在深入分析伊索寓言语料中人称代词指代特点的基础上,根据代词和其先行语所遵循的一般规律,定义了七个与指代相关的特征,并选用六种机器学习的算法进行消解实验,实验结果证明机器学习的方法能较好地解决人称代词的指代消解问题。  2.在实验的基础上本文设计了一个基于语料库的,机器学习方法与优选策略相结合的指代消解系统。该系统充分考虑了与指代相关的若干特征,利用决策树算法构建筛选器,并结合错误驱动的规则提取方法,有效地降低了噪音,大量减少了进入优选策略待消解对的数量。而优选策略可以将通过筛选器不能很好处理的指代现象利用统计学的方法消解出来。  3.详细描述了中文文本人称代词消解系统的设计与实现,并且对系统进行了全面的测试评估,对比各类人称代词的消解情况,分析不同特征对系统性能的影响大小,讨论错误原因。从该算法目前所取得的一些实验结果看来,这是行之有效的。  本文对人称代词的指代消解进行了初步的研究,从中我们认识到了进一步的研究内容,为今后的研究奠定了基础。
其他文献
随着芯片技术的发展,人们已经能在很小的面积上制造出功能强大的处理器,这些处理器不但成本低,耗电少,而且能够满足日常计算及数据采集工作的需要,因此无线传感器网络这个事
Web服务与面向服务架构正作为分布式系统上的技术和架构涌现出来。Web服务作为一种能够快速集成应用的技术,代表了分布式计算的最新潮流,具有广阔的应用前景。Web服务建立在开
伴随分子生物学的兴起而出现的DNA计算机以其海量存储、高度并行运算能力等优点,在解决传统计算机难以胜任的NP完全问题甚至数学的难解问题上显示出巨大的潜力,成为解决这些
随着芯片技术、通信技术和传感技术的飞速发展,目前传感技术正迈入无线传感器网络新时代。这种网络由大量集成有传感器、数据处理单元和无线通信模块的微小节点组成,通过自组织
虹膜诊断是一种新兴的诊断方法,它能根据虹膜特定区域的纹理变化对身体健康状况进行诊断,对疾病的早期发现和跟踪治疗都具有很大的指导意义,具有重要的理论研究价值和广泛的应用
通信技术和计算机技术的迅猛发展使网络中的故障呈现复杂化、多样化,而传统的诊断方法和现有的智能诊断技术通常只能诊断出单一的故障类型和设备,已不能满足目前网络的需求。
移动学习是近年来随着网络技术、无线通信技术、移动计算技术和多媒体技术等的迅速发展及融合而悄然兴起的一种新型的学习技术与方式。结合移动学习技术,构建移动英语学习平
SEU是由带电粒子投射到集成电路器件的敏感区域引起的,通常会导致器件内部寄存器内容的改变,或内存位翻转。为了抵抗太空中的SEU,使基于FPGA的多光谱图像压缩系统在深空环境
网络教学正在以前所未有的速度和深度在教育领域全面推开,网络教学的推行需要大量的教学资源,教学资源中最重要的组成部分就是教学课件,各种格式的教学课件都需要各种相关软件的
无线传感器网络是一种新型的信息采集网络,通常由分布在一个探测区域内的大量传感器节点组成,这些节点自组织形成网络,获取该区域中的有用信息并将这些信息传输给网络的基站