中文语料库切分不一致字串分类校验方法研究

来源 :山西大学 | 被引量 : 3次 | 上传用户:mena
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语料库是研究中文信息处理的基本语言资源。没有语料库的支持,中文信息处理的研究将会寸步难行。语料库在自然语言处理的许多方面都有重要的应用价值,语料库的建立为语言学的研究提供了丰富的语言现象,人们通过语料库观察和把握语言事实,分析和研究语言系统的规律,为计算语言学学者从加工的语料库中获取语言知识、建立语言模型、研究语言信息处理技术,提供了翔实的语言信息数据。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。 建设高质量的大规模语料库是中文信息处理领域的基础性工程,是对任何建立在此基础上的其它研究的成果的重要保障。迄今在世界范围内,一个真正经得起各方面推敲并形成一定影响的大型汉语分词语料库严格说来还没有。问题的要害在于分词语料库的质量。而衡量质量的重要标准之一是分词后的语料库是否具有比较高的一致性。 在生成语料库的过程中,因为多种主观与客观原因,不可避免地会产生切分不一致现象,对大型语料库而言,这个现象更为明显。 目前,人们对分词进行了大量的研究,提出了很多有效的切分算法,但对分词结果不一致现象研究的报道不多。因此为了提高语料库的切分质量,本文对切分不一致进行了探索研究。 本文在对语料库中真实发生的切分不一致现象进行了调查研究、统计分析,总结了切分不一致产生的主观与客观原因,主要做了以下的工作: 1.对150万汉字的熟语料进行了统计分析,总结了语料库中分词结果不一致的主要结构类型。 2.提出了规则分类的方法。对具有明显结构特征的切分不一致字串,用人工归纳的19条规则,来进行分类、标记处理。规则的分类方法对语料库中近50%的字串能够有效地进行分类,说明了规则的有效性。 3.提出使用统计的方法:互信息与假设检验-t检验,结合最近邻分类方法对100万的实验数据进行测试计算,获得了切分不一致字串的概率分布与特征向量。使用这种定量的方法对具有明显概率分布的字串进行分类标记。 4.对数据进行了实验,把人工标记结果当作评价系统的标准答案,得出了分类正确率CP与标记满意度AV。验证了规则与统计相结合的、最近邻分类方法为补充的分类方法的有效性。 在统计与分析数据的基础上,对具有不同特征的不一致字串提出了多种分类方法,层层递进的处理策略,取得较好的分类效果。对一个语料库中发生了切分不一致的字串进行分类处理,把相同结构的、具有相似词法或语法作用的切分单位聚成一类,可以方便地对于同类的不一致字串采取一致的处理策略,在一定程度上能够使具有相同结构字串的切分形式趋于一致。我们的目标是最后形成一个具有分类标记的不一致字串库,库中记录具有类别标记与切分形式的建议标记。通过实验,使用文中的方法进行分类,获得了76%的分类正确率。
其他文献
近年来,随着网络技术的发展,P2P网络迅速普及开来。不同于客户机/服务器(C/S)结构,P2P并不严格的区分服务提供者和消费者,即参与的节点(Peer)都是平等的一种自组织、没有中央职权
受益于网络技术和移动通信技术的发展,人们开始使用越来越多的而且是各种各样的无线或者移动设备进行通信,处理和存储各种个人数据,像电话号码、个人记事本、会议信息等。用户将
监测功能是网格系统的基本组成部分,本论文认为通过SOA可以构建与具体网格系统无关的监测系统,同时现有的网格监测系统存在不支持测试内容的动态增加和更新、缺乏统一的监测结
命名实体的识别一直是自然语言处理领域的研究焦点之一,对信息抽取、问答系统、机器翻译等方面的研究有着十分重要的价值。虽然命名实体识别技术已经相当成熟,但是从评测的结果
基于Linux和J2ME的智能手机已成为嵌入式系统应用研究中的热点问题。同时,图形用户界面(GUI)在智能手机等嵌入式系统中的地位也越来越重要,它将承载越来越多的增值业务和数据服务
随着经济的发展和信息科技的进步,电子商务逐渐成为当今业务贸易的趋势。快递行业作为近来新兴的行业,更是得到了飞速发展,其对信息处理的要求也越来越高。然而,快递行业的处
由于数据挖掘是从大量真实数据中提取有价值的知识,在数据挖掘的过程中很可能会引发敏感信息的泄露,这就带来了隐私保护方面的诸多问题。因此,如何在保护隐私的同时得到满意的挖
移动计算环境的移动性、灵活性等特点使其具有广泛的应用前景,但是它的带宽窄、无线通讯易受干扰等特性也会导致系统出现故障,所以在移动计算环境中引入容错技术是目前研究的
随着现代科技的发展和3C的融合,一场围绕“显示为中心”的无线大革命拉开了序幕。这场无线大革命已经从90年代的数据网络向21世纪的视觉网络迈进,同时数字家庭也从第一代向第二
近年国外HIS(Hospital Information System,医院信息管理系统)领域十分重视中间件技术的研究与应用,国内也进行了大量研究。软件厂商使用中间件技术,主要是为了解决HIS的维护