论文部分内容阅读
中文分词任务是机器翻译、自动问答、信息检索等自然语言处理任务的基础工作,其研究具有重要的理论意义和应用价值。面向社交媒体语料的自然语言处理任务受到广泛关注,但由于社交媒体语料的特殊性及其分词训练语料极为匮乏等问题,导致现有分词器在该领域的分词结果不理想。本文围绕如何提高面向微博等社交媒体领域的中文分词器的性能这一课题展开深入研究,主要研究内容包括:针对微博领域缺乏分词训练语料且含有大量新词的问题,提出一种新的无监督微博新词识别方法。由于现有新词识别统计量对词频依赖性较大,因此,本文将新词识别任务分为高频新词识别和低频新词识别两个子任务。对于高频新词识别任务,提出点互信息和字向量相结合的新词识别方法;对于低频新词识别任务,提出基于Modified Accessor Variety和词串独立性的新词识别方法。结果表明,本文所提方法优于当前领先的Overlap Variety新词识别方法。针对微博语料中存在大量相似样例的问题,提出基于λ-主动学习的中文微博分词方法。该方法的初始分词器采用CRFs模型,利用无监督方法从大规模未标注语料中获得点互信息和停用字可能性作为CRFs模型的学习特征;根据微博语料中存在大量局部相同而整体不同的样例的特点,在主动学习挑选样例时引入参数λ对字边界的多样性进行衡量,有效控制选取的类似样例的数量。实验表明,所提方法优于目前领先的基于词边界标注的主动学习方法。为了在扩充训练语料过程中避免人工标注工作,提出基于BLSTM神经网络模型和CRFs模型协同训练的半监督中文微博分词方法。该方法在协同训练过程中,根据个体分词器对未标注微博语料的预测结果获得标注样例中的异簇,并提出规则和D-S证据理论相结合的标签自动修正算法对异簇标签进行修正,从而生成伪训练语料。结果表明,本文所提的协同训练方法可以在不需要任何人工标注的情况下,利用自动获得的伪训练语料显著提高个体分词器的性能,达到该领域的领先水平。综上,本文针对微博等社交媒体语料的特点提出无监督新词识别方法、基于半监督的主动学习方法的中文微博分词方法和基于半监督的协同训练的中文微博分词方法。结果表明,本文研究工作能够自动获得高质量的微博分词训练语料,有效提高面向微博语料的中文分词器的性能,为面向社交媒体语料的文本处理与信息抽取打下基础,也为训练资源稀缺的研究任务提供了扩充训练语料的新思路。