面向句法分析的样本选择

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:nyffyn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是自然语言处理的一个基本问题,也是目前急待解决的一个问题。大多数现有的句法分析是基于统计方法的,基于统计的句法分析模型需要大规模的训练样本,而标注一个大规模样本集需要很大的人力。为了减少标注语料库所需的人力并保证标注的语料库能使句法分析器有较高的精确率和召回率,本文对面向句法分析的样本选择方法进行了研究。目前国内外面向句法分析的样本选择大多采用主动学习的方法,这种方法的思想是让句法分析器自己决定什么样的句子应该作为它的训练样本,但是这种方法同句法分析模型密切相关,选出来的句子有可能会受到模型的影响。为了避免这不足,本文提出了一种独立于模型的样本选择方法,该方法从句子结构上计算句子间的距离,然后用K-means方法对句子进行聚类,根据每类的大小从类中选择出一定的句子组成一个子集。因为这个子集包含的句法规则分布能近似于原句子集的句法规则分布,所以这个子集标注后训练的句法分析器的精确率和召回率近似于用原句子集标注后训练的句法分析器的精确率和召回率,而标注子集所需的人力比标注原句子集所需的人力小。为了检验独立于模型的样本选择方法是否有效,本文利用KL-distance计算了通过该方法选择出的子集同原句子集在句法规则上的相似程度,并用随机选择的句子集作对比,发现通过该方法选择出的子集的句法规则分布同原句子集的句法规则分布很相似。然后本文将选择出的子集标注后作为PCFG模型的句法分析器的训练集,实验结果证明,选择出50%的句子,用其训练的句法分析器就能有近似于用原句子集训练的句法分析器的性能。
其他文献
由于图结构具有强大的表示能力,它在许多方面有着广泛的应用。随着计算机技术和国际互联网络技术的迅速发展,图模型数据上的管理和查询操作领域受到了越来越多的重视。XML可
随着视频编码技术和通信技术的不断发展,电视节目信号的数字化编码、传输和处理已经被广泛应用于实践,广播电视从模拟向数字的转变将在不远的将来得到全面实现。众所周知,MPE
随着Internet与计算机硬件技术的飞速发展,越来越多的人开始通过网络交换信息、获取服务。截止2003年,全球网站数量超过8,712,000个,全球Internet用户超过一亿;但是在这样一
开发航空物流信息系统这样一个具有行业特点(岗位业务相对独立,业务流信息流明显,数据的交叉公用性强)的企业级应用系统面临的主要问题是:软件复杂性高和需求变化频繁。为了解决这
近年来,随着信息技术的高速发展,OLAP(On-Line Analytical Processing)技术逐渐成为人们研究的重点。关系数据库具有二十多年的发展历史,在技术上已经相当成熟并形成国际标准。
无线射频识别技术(Radio Frequency Identification. RFID)是一种通过无线射频方式进行通信的非接触式的自动识别技术。它具有环境适应能力强、精度高、操作简单方便、抗干扰
目前,国内外对入侵检测系统的研究已经取得了很大进展,但是还存在几个方面的难题:(1)基于网络的入侵检测系统漏警率与网络性能之间的矛盾问题;(2)不同的入侵检测系统之间不能协同
由于多主体系统(MAS)能体现人类的社会智能、具有很大的灵活性和适应性,可以广泛地运用于构建开放、动态的软件系统,所以成为人工智能研究的核心领域之一。而使用形式化工具对
随着信息技术的飞速发展和信息设备的广泛应用,信息安全已经成为影响国家和社会的关键问题。而安全高效的密码系统则是解决信息安全问题的基础。椭圆曲线密码系统,与RSA、DSA
随着网络多媒体技术的广泛应用和发展,国际互联网已成为传播各种知识和信息的重要途径,但随之而来的盗版和侵权行为也越来越猖獗。近年来音频数字水印技术作为一种新兴的防盗