中文分词交集型歧义处理研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:boshi9529
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词是最小的能独立表示语义的语言单位,因而是处理各种自然语言文本的基础。汉语书写显得很特别,因为它没有明确的标志将词与词分开,而是一段连续的汉字串。如何把汉字串正确地切分成词串,即对词边界的自动识别,是中文信息处理中迫切需要解决的问题。对中文分词的研究很有意义,本文研究的是中文分词中词典机制和交集型歧义的发现和消除。主要研究工作包括以下几个方面:(1)系统地阐述了中文分词研究背景、意义以及发展现状,并对一些有特色的分词系统进行简单的介绍。(2)对中文分词中常用的算法进行详细的介绍并举实例阐述其算法思想及运行过程。对在中文分词过程中所遇到的困难进行了概括并给出了评价中文分词的标准。(3)分词速度和精度是衡量分词系统的核心指标。通过对几种常见的词典结构的研究,发现各自词典结构的优缺点,在此基础上处于提高分词速度、提高建构词典的空间效率、查找过程的时间效率以及汉语词组的统计规律的考虑,本文选择双字Hash索引的词典机制,将前两字逐个建立Hash索引,并将剩余字串有序排列组成词典的正文。(4)本文主要对交集型歧义进行处理。首先介绍歧义产生的根源以及歧义的分类。详细介绍了交集型歧义的发现算法和消解算法。本文发现了一种能识别交集型歧义的方法,即在二元切分词图中,如果位于对称轴上的原子与它相连的右边和上面位置上同时不为空,表明这里出现了交集型歧义。本文采用基于统计的方法来对交集型歧义进行消解,先详细的介绍了几种基于统计的常见方法,并分析它们的优缺点,最后采用双字耦合度和t-测试差的线性叠加,再对各个歧义位置进行计算CDT(Couple and Difference of T- test)并对是否进行切分做出选择。实验结果表明,基于词典和统计相结合的分词算法对应于传统的分词算法在分词速度和分词精度上都有显著的提高。然而该算法不能处理组合型歧义和未登录词,有待进一步研究。
其他文献
随着互联网技术的广泛发展,互联网已经成为目前世界上最大的信息资源库。在互联网信息空间中如何快速、准确、全面的找到自己想要的信息已经成为21世纪互联网技术的一大难题
随着多核计算机的日益普及,大规模科学与工程计算、事务处理与商业计算的需求,以及数据挖掘应用领域的不断扩大,基于多核平台的线性方程组数值求解算法和大数据量数值关联规
文本分类中特征选择的目的是通过从原始特征集合中去除分类无关特征和冗余特征,以减少文本特征向量维数,提高分类的效率和精度。传统文本特征选择方法通常引入特征之间的条件
遥感技术的发展,使我们能够获得极其丰富的信息,尤其是近几年来高分辨率遥感影像的出现更扩大了对自然界观察的视野。但是面临的挑战是如何处理和应用这些数据,使之能转变为急需被应用的信息。高分辨率遥感影像表现出地物更多的信息诸如光谱、形状、纹理以及上下文等。尽管卫星遥感数据分类技术有了长远的发展,但是对于高分辨率遥感影像来说,利用单一传统的分类方法不仅会导致分类精度降低,而且也会造成空间数据大量冗余、资源
数字图像处理方法的研究源于两个主要应用领域:其一是为了便于人们分析而对图像信息进行改进;其二是使机器自动理解识别而对图像数据进行存储、传输及显示。将分数阶微分用于
薄层色谱法(Thin-Layer Chromatography,简称TLC)具有设备和操作简单,展开时间短,检验灵敏度高等优点,是微量样品快速分离和定量分析的重要方法。在石油化工中,原油和有机抽
文本表示研究是自然语言处理领域基础的研究课题之一。词是文本中基本的语义单元,传统的词表示方法无法全面反映其所蕴含的语义信息,针对特定的自然语言处理任务,研究者们需
随着社会的高速发展,人们生活水平的不断提高。笔记本电脑正逐步走进千家万户的家中,成为人们工作、生活、娱乐不可或缺的重要组成部分。然而,在人们购买笔记本电脑之前,往往
在工程实践和科学研究中存在着大量的组合优化问题,且大多带有约束条件,采用传统的数学优化方法将很难求解。差分进化算法是近年提出的一种新的自然计算方法,也是基于种群迭
本体作为共享概念模型的形式化规范说明,具有良好的概念层次结构和语义表达能力,已经引起越来越多国内外专家学者的关注,并在知识工程、语义检索等领域得到广泛应用。然而,现