中文微博评论对象抽取研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:woaibaobei123321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着自媒体技术的迅速发展,广大互联网用户逐渐从信息的被动接收者转变为信息的生产和分享者。微博平台的迅速崛起产生了海量的文本数据,其中蕴含的信息无论是对研究还是应用都具有非凡的价值。近年来,针对微博的情感分析发展迅速,而作为情感分析的关键任务之一,评论对象抽取由于在文本摘要抽取、舆情分析等多个领域具有极大的应用价值,逐渐受到研究人员的重视。然而目前面向中文微博的相关研究还不充分,由于微博文本具有缺乏语言规范、句子结构不清晰等内在特性,使得研究难度加大。因此,本文将微博作为研究对象,以评论对象抽取任务为研究内容,寻找更有效的中文微博评论对象抽取方法。本文将评论对象抽取任务分为候选词抽取与标准评论对象抽取两个主要步骤,针对不同步骤,对现有方法进行了改进优化。具体而言,本文工作主要有以下四点:第一,在候选词抽取阶段,本文改进了现有方法中的基于话题标签分词和简易规则的评论对象候选词抽取方法。现有方法是基于SCP理论将话题标签分词然后将结果加入分词工具的词典中进而对微博文本进行分词,然后用基于规则的方法来抽取文本中的评论对象候选词。由于传统分词工具的词典具有很大的局限性无法对包含了大量网络流行语的微博文本进行良好的分词,并且使用的抽取规则过于简单和粗糙,从而导致候选词抽取效果不佳。本文通过收集中文输入法的细胞词库构建新的用户词典,然后对抽取规则进行优化和扩展,有效提高了候选词抽取效果。第二,在标准评论对象抽取阶段,提出了一种改进的基于聚类的多图平行标签传播的评论对象抽取方法,提高了微博文本评论对象抽取效果。现有的基于标签传播的评论对象抽取方法是以话题为单位,将同一个话题下所有微博无差别的构建到一个无向图中然后实行标签传播算法以达到协同抽取评论对象的目的,这种方法简化了建模复杂度,但是忽略了同一个话题下的微博存在不同讨论主题的情况,而不同的讨论主题下的微博无论是在表达方式、遣词用句等方面都具有差别,无差别的构图方法将会在标签传播过程中产生错误的传播路径和效果,并且这种错误会随着传播的进行而不断积累。为了克服上述问题,本文选择将同一个话题下的所有微博通过相似度进行聚类分为多个类别,每个类别对应一个主题,在此基础上,为每一个主题下的微博构建一个无向图,然后平行地对多个无向图实行标签传播算法,从而避免了由于讨论主题不同而造成的传播过程中的可信度不平等化的问题,实验表明改进的算法较现有方法性能有明显提升。第三,在标准评论对象抽取阶段,语句相似度计算是十分重要的一步。本文提出了一种改进的基于微博上下文与浅层词汇特性相结合的微博语句相似度计算方法。在标签传播算法中,节点相似度计算是极为重要的一个步骤,相似度计算的准确与精度直接影响着整个图的传播过程,进而影响到最后的抽取结果。现有的基于标签传播的抽取方法中,语句作为无向图中的节点,其相似度计算是直接采用标准向量空间表示下计算向量余弦值的方法,这种方法虽然简单却丢失了语句所处的上下文信息。对于微博这种结构松散的短文本来讲,单句的理解往往依赖于对上下文信息的理解,忽略上下文的单句表达能力十分有限,因此,在计算相似度时,除语句本身所具有的词汇特征等内在特性外,本文还将语句所在微博的上下文信息考虑在内,设计了融合上下文与浅层词汇特征的语句相似度计算方法。第四,在基于标签传播算法的评论对象抽取方法中,候选词相似度也是影响传播过程的重要因素。本文改进了现有方法中的计算候选词相似度的方法。在现有方法中,候选词的相似度是计算两个词汇(短语)的杰卡德距离指数得到,通过共有字符数来衡量相似程度,然而这种仅仅考虑词形特征的方法是粗放的,很容易造成误传播,影响候选词可信度的排序结果从而影响到最后的抽取结果。本文在现有研究基础上,提出一种面向微博的基于同义词词林与词形特征相结合的candidate similarity计算方法,将词形与词义特征相结合以计算候选词的相似度。
其他文献
随着互联网的普及、无线网络技术及信息传输技术的快速发展,无线信息网络进入了集视频、音频、文本、图像为一体的多媒体通信时代。伴随着网络信息多样性的发展,移动终端设备
随着互联网不断进步和发展,随着数字技术的巨大突破,每天都会有大量的图像信息资源充斥于互联网上。越来越丰富的图像资源让用户很难在浩瀚的图像数据中找出他们真正想要的图
车间调度问题是计算机集成制造系统工程中的一个重要组成部分,它对企业的生产和管理有着重要的影响。随着全球经济的发展,市场竞争越来越激烈,制造型企业必须根据市场的变化
随着互联网络的高速发展,Web上的信息量越来越大,而且这些信息本身是高度分布式的。而传统的搜索引擎大都采用集中式的搜索机制,因此很难满足用户对于搜索效率和搜索结果的要
随着计算机技术和互联技术的飞速发展,人脸识别已经成为模式识别和图像处理的热门研究主题之一。由于识别算法以及外界条件的影响,高效的人脸识别率成为了相关研究的核心问题
随着信息时代的到来和网络的普及,信息系统安全越来越被人们所关注。   信息是一种资源,对于人类来说有重要的意义。个人电脑上的信息的保存在各种文件中。如何保护信息的安
基于图像的建模和绘制技术(IBMR技术)是一种全新的产生真实感图像的方法,核心思想是从已知图像中生成新的图像。目前,基于IBMR技术生成新图像,并对场景进行重建的技术已得到
21世纪世界各国都特别重视对海洋资源的开发利用,我国在本世纪制订了西部开发与海洋资源开发齐头并进的战略。因此,利用现代科技手段合理高效地监测海洋环境是我国实现海洋强
聚类算法研究是机器学习和数据挖掘的核心研究内容,已经吸引了无数的研究者为之努力。聚类是无监督学习的代表,在聚类算法中,数据之间的相似度是根据描述对象的属性值来计算
随着工作流技术的发展,工作流系统在企业的运作中起着越来越重要的作用。在工作流技术中,业务流程案例的平均执行时间是系统最重要的性能指标,体现着企业的运行效率。而执行业务