论文部分内容阅读
共指是自然语言领域中广泛存在的现象,所谓的共指消解任务(Coreference Resolution),就是利用一篇文档中的上下文信息,结合各个表述本身内容的特征,将同一对象的不同表述方式对应到具体实体(Entities)的过程。近年来,产品评论作为用户在网络媒体上对产品发表意见的重要载体被学术界广泛研究。由于用户的知识背景以及语言习惯不同,不同用户对产品同一属性的表达方式有所不同,这一共指现象导致产品评论中产品属性描述过于繁多、琐碎,不利于计算机的分析与理解,因此,产品评论的共指消解是意见挖掘领域亟待解决的重要问题之一。本文根据中文产品评论的语言特点,探讨了产品评论中产品属性的共指关系,并分别采用聚类和分类方法来研究汉语产品属性共指消解问题。具体地,本文工作主要体现在以下三个方面:(1)针对中文产品评论的语言特点,从词形、词义和上下文等三个语言层面探索了共指产品属性之间的联系,并以此为基础分别构建了相应的产品属性相似度计算方法,为产品共指消解的聚类和分类特征选取提供理论依据。(2)本文以机器学习二元分类方法为基本框架,构建了基于有监督学习方法的共指消解系统。并对系统中Mention识别、共指关系判断、共指链生成三个关键步骤展开研究讨论,分析比较了不同特征、分类器对共指消解性能的影响。实验结果表明了在机器学习二元分类框架下融合词形、词义以及上下文特征的共指消解方法的有效性。(3)本文采用层次聚类算法以及K-Means聚类算法构建了无监督的产品属性的共指消解系统。结合本文共指消解的具体任务,探讨了聚类算法中特征权重选择、K值选择、初始聚类中心选取的相关问题,通过实验结果表明,基于密度以及最大最小原则的初始中心选取方法能够有效提高基于聚类方法的共指消解系统性能。