汉语语料库的切分标注处理和专名识别

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:d42953533
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今信息处理中占绝大比例的是语言文字的处理,与传统的理性主义方式相辅的是经验主义方法,其中大规模真实文本语料库加工因具有实用性强、见效快的特点,普遍受人欢迎。 语料库语言学是80年代才崭露头角的一门计算语言学的新的分支学科,它的应用领域极广,包括文本分类、检索、自动摘要、信息获取、简单的机器翻译和基于实例的对话系统。语料库语言学研究的基础是机器可读的大容量语料库,由于原始的未经加工处理的文本(生语料)很少直接起作用,需要先对其进行分析处理才能运用于实践。 汉语不同于印欧语种,缺乏天然的分割信息,要进行汉语的计算机处理,必须首先将汉语的词与词分开,即分词(也称切分),切分是中文语料处理的第一步;为词语标上其所属的词类就是词性标注,是语料进一步加工的必须过程。由于多年来汉语语料切分标准缺乏一个全国统一的详尽的加工标准,各家研究机构由于研究目的等不同,加工的语料不能兼容,造成了资源的重复建设和浪费;同时,切分中的排岐和未登录词特别是专有名词的识别一直困扰着切分标注,成为语料加工的瓶颈,甚至可以说也成为整个中文信息处理平台的瓶颈。本文主要着重解决这两个问题。 本文设计并基本实现了一个具有专名识别功能的多输出的汉语切分标注系统,同时考虑了系统的效率和可扩充性等实用方面的问题。 为了能使加工的语料既符合国家制定的加工规范,又能适应不同应用的实际需求,本文提出了一个规范独立的加工模型。在基本的分词和标注模块之后,有一个单独的规范规则处理模块,系统的分词和标注模块可同切分标注的相关规范无关,一旦规范修改,只需替换切分标注规范规则文件即可。同时,本系统在加工中对每个词都加上了信息,个性化输出模块可以根据这些信息按需输出不同颗粒度大小的加工结果。 在切分和标注模块,系统改进了前缀码分词算法,采用了结合前缀词表的首尾二字哈希查找算法来提高效率,同时,针对单独使用规则或概率方法消歧的不足,将两种方法有机的结合起来进行歧义消减。 在专名识别方面,在参考国内各家方法的基础上,系统设计了自己的人名识别和地名识别的统计模型,提出了一套结合上下文信息,综合运用统计、规则、资源库的识别方法。方法提出了专名识别缓冲区的概念,更加注重局部范围内专有名词的出现频率。在实现系统中获得显著效果 在本文的最后,在对测试数据分析的基础上,针对系统的不足,提出了系统进行进一步改进的侧重点和方法。
其他文献
无线传感器网络是近年来网络信息技术的一个研究热点。传感器节点集成了微传感器、微控制器和无线通讯模块,具有体积小、功耗低和能在恶劣环境下工作的优势。大量的传感器节
对于二维图像渐变过程,主要是研究如何在两幅图像中建立一系列的渐变过程,以实现从原图像渐变到目的图像的目的。其原理是利用人眼的视觉暂留原理,在两幅指定的图形或图像之
随着人们生活水平的不断提高和市场经济的发展,人们对电话的需求日益增多,原来敷设的线路容量已经不能满足要求,因此,利用有限信道资源以增加电话用户数量成为现代通信领域研究的
Semantic Web是下一代互联网的关键技术之一.它帮助机器在Web上进行语义交流和理解.Ontology是Semantic Web上语义理解的基础,相当于定义词汇表,关系属性和推理规则,用于描述
由于两种最常见的网络安全防护技术防火墙与入侵检测自身都存在很多不足,伴随着入侵攻击行为的不断演化,无论防火墙还是入侵检测都很难单独的做到较为完善的网络安全防护。因此
随着信息技术革命的深入进行,国防建设对于网络存储系统的性能、可靠性等方面的要求急剧增长.存储区域网(Storage Area Network,SAN)和光纤通道技术(Fibre Channel,FC)则是解
冷轧板带的生产是国家钢铁工业发展水平的重要标志。近30年来,作为国家钢材品种结构调整重点的冷轧板带的产量和生产技术都获得飞速发展。同时,随着冷轧产品种类的增多,用户对冷
随着数据库的广泛应用,如何保证数据库中数据的安全成为数据库研究的重点之一,为了保证数据库数据的安全访问,数据库管理系统(DBMS)自身提供了一系列安全控制机制,包括数据库用户身
联合作战是现代战争的主要作战样式,运用作战实验的方法研究和制定联合打击方案,已成为各国军方赢得战争胜利的重要途径。在联合作战仿真建模中,多分辨率、多层次建模引起了众多