论文部分内容阅读
近几年随着自然语言处理应用的发展,专业领域中文分词的需求越来越大。由于专业领域语料资源较少,很多实验无法进行。大部分中文分词方法在专业领域上都不能获得很好的分词效果,不能满足实际应用的需求。针对专业领域中文分词的研究较少。专业领域中文分词是中文分词任务中的难点。以解决专业领域中文分词为核心问题,针对当前专业领域中文分词现状,对现有中文分词方法进行了调查。分析现有方法在专业领域中文分词中的优势与问题,针对该类方法存在的问题提出基于实例的分词歧义消解方法。并提出特征适合度与潜在分词歧义的概念和计算方法,从语料的质与量两方面对中文分词研究中的基础问题进行研究,为改进专业领域分词方法奠定基础。在上述工作基础上,提出不依赖于训练语料的专业领域分词方法与分词歧义消解方法。主要创新性工作包括:1基于“固结词串”实例的机器学习方法解决通用领域中文分词歧义问题。常用的基于条件随机场的中文分词方法虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。为解决这一问题,提出一种简单的、基于“固结词串”实例的机器学习方法解决分词歧义问题。实验结果表明,该方法可以简单有效地解决原有的分词歧义问题,并且不会产生更多新的歧义切分。2提出机器学习效果预测的静态理论模型,研究测试语料相对于训练语料的适合度对机器学习效果的影响。实验证明,相对适合度的值与机器学习效果的值正相关。这一模型可以在语料无标注信息的情况下对机器学习效果定量估计,指导训练语料和开发语料的选择,客观反映中文分词任务中未登录词(Out-of-Vocabulary,OOV)质的问题。3统一OOV与分词歧义数量的统计方法,客观评价OOV与分词歧义对分词结果的影响。现有的OOV与分词歧义分析方法中,OOV的统计独立于分词方法,但分词歧义的统计严重依赖于分词方法,因此难以定量地评价OOV与分词歧义各自对分词结果的影响。针对该问题,提出潜在分词歧义的概念,利用潜在分词歧义衡量分词歧义对分词结果的影响;同时,统一了OOV与分词歧义的统计单位。这样做的结果,揭示了测试语料、训练语料的不同规模对分词结果影响的深层次原因,为进一步提高分词效果指明了途经。4不依赖专业领域训练语料的专业领域中文分词方法。提出词表与机器学习方法相结合的专业领域分词方法,利用机器学习方法学习专业领域词表中的构词信息,识别测试语料中的OOV。又提出词表与无监督学习相结合专业领域分词方法,利用词表信息纠正无监督学习方法中存在的问题,既保留无监督学习OOV的识别能力,又使得已在词表中的词得到正确切分。实验数据显示,两种方法均可提高专业领域分词效果。5基于无监督学习的专业领域分词歧义消解方法。该方法不依赖于专业领域知识与训练语料,仅使用测试语料中字符串的频次、互信息、边界熵信息解决分词歧义问题。实验显示这三种评价标准可不同程度解决专业领域分词歧义问题,提高分词效果。其中使用互信息的分词结果最佳,且表现稳定。