论文部分内容阅读
随着自媒体技术的迅速发展,广大互联网用户逐渐从信息的被动接收者转变为信息的生产和分享者。微博平台的迅速崛起产生了海量的文本数据,其中蕴含的信息无论是对研究还是应用都具有非凡的价值。近年来,针对微博的情感分析发展迅速,而作为情感分析的关键任务之一,评论对象抽取由于在文本摘要抽取、舆情分析等多个领域具有极大的应用价值,逐渐受到研究人员的重视。然而目前面向中文微博的相关研究还不充分,由于微博文本具有缺乏语言规范、句子结构不清晰等内在特性,使得研究难度加大。因此,本文将微博作为研究对象,以评论对象抽取任务为研究内容,寻找更有效的中文微博评论对象抽取方法。本文将评论对象抽取任务分为候选词抽取与标准评论对象抽取两个主要步骤,针对不同步骤,对现有方法进行了改进优化。具体而言,本文工作主要有以下四点:第一,在候选词抽取阶段,本文改进了现有方法中的基于话题标签分词和简易规则的评论对象候选词抽取方法。现有方法是基于SCP理论将话题标签分词然后将结果加入分词工具的词典中进而对微博文本进行分词,然后用基于规则的方法来抽取文本中的评论对象候选词。由于传统分词工具的词典具有很大的局限性无法对包含了大量网络流行语的微博文本进行良好的分词,并且使用的抽取规则过于简单和粗糙,从而导致候选词抽取效果不佳。本文通过收集中文输入法的细胞词库构建新的用户词典,然后对抽取规则进行优化和扩展,有效提高了候选词抽取效果。第二,在标准评论对象抽取阶段,提出了一种改进的基于聚类的多图平行标签传播的评论对象抽取方法,提高了微博文本评论对象抽取效果。现有的基于标签传播的评论对象抽取方法是以话题为单位,将同一个话题下所有微博无差别的构建到一个无向图中然后实行标签传播算法以达到协同抽取评论对象的目的,这种方法简化了建模复杂度,但是忽略了同一个话题下的微博存在不同讨论主题的情况,而不同的讨论主题下的微博无论是在表达方式、遣词用句等方面都具有差别,无差别的构图方法将会在标签传播过程中产生错误的传播路径和效果,并且这种错误会随着传播的进行而不断积累。为了克服上述问题,本文选择将同一个话题下的所有微博通过相似度进行聚类分为多个类别,每个类别对应一个主题,在此基础上,为每一个主题下的微博构建一个无向图,然后平行地对多个无向图实行标签传播算法,从而避免了由于讨论主题不同而造成的传播过程中的可信度不平等化的问题,实验表明改进的算法较现有方法性能有明显提升。第三,在标准评论对象抽取阶段,语句相似度计算是十分重要的一步。本文提出了一种改进的基于微博上下文与浅层词汇特性相结合的微博语句相似度计算方法。在标签传播算法中,节点相似度计算是极为重要的一个步骤,相似度计算的准确与精度直接影响着整个图的传播过程,进而影响到最后的抽取结果。现有的基于标签传播的抽取方法中,语句作为无向图中的节点,其相似度计算是直接采用标准向量空间表示下计算向量余弦值的方法,这种方法虽然简单却丢失了语句所处的上下文信息。对于微博这种结构松散的短文本来讲,单句的理解往往依赖于对上下文信息的理解,忽略上下文的单句表达能力十分有限,因此,在计算相似度时,除语句本身所具有的词汇特征等内在特性外,本文还将语句所在微博的上下文信息考虑在内,设计了融合上下文与浅层词汇特征的语句相似度计算方法。第四,在基于标签传播算法的评论对象抽取方法中,候选词相似度也是影响传播过程的重要因素。本文改进了现有方法中的计算候选词相似度的方法。在现有方法中,候选词的相似度是计算两个词汇(短语)的杰卡德距离指数得到,通过共有字符数来衡量相似程度,然而这种仅仅考虑词形特征的方法是粗放的,很容易造成误传播,影响候选词可信度的排序结果从而影响到最后的抽取结果。本文在现有研究基础上,提出一种面向微博的基于同义词词林与词形特征相结合的candidate similarity计算方法,将词形与词义特征相结合以计算候选词的相似度。