中文微博情感倾向性分析研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:luoyanxiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感倾向性分析是通过研究文本中人们的情感,观点,看法等内容,来确定文本中所包含的情感与态度等主观信息。情感倾向性分析经历了最近10年的快速迅猛发展,现在已经成为一个热门研究方向,并产生了巨大的商业和社会价值。近年来,随着微博的流行,情感倾向性分析研究也在逐渐关注微博文本这一充满潜力的新兴领域,已经有学者做出许多探索,但是至今为止仍然存在着许多待解决的问题,如海量中文数据难以有效标注,微博语料主客观情感严重失衡,现有机器学习方法容易造成过度训练,中文情感对象领域知识缺少有效利用等等。针对这些已有的问题,本文使用了主动学习和马尔科夫逻辑网算法,对中文微博情感倾向性分析研究进行了进一步的探索,降低了这些问题对中文微博情感倾向性分析研究产生的影响,使试验结果取得了显著的提升。根据中文微博数据量巨大但是难于标注,训练文本稀缺的特点,本文引入了主动学习算法。主动学习算法可以通过利用大量未标注语料信息来扩大训练语料的规模,解决中文微博难于标注的问题。同时,本文在主动学习算法中使用了适用于微博特点的特征抽取方法以及训练度阈值优化,迭代权重优化和不平衡语料优化方法,对微博语料主客观情感严重失衡和过度训练等问题的解决产生了帮助,提升了情感倾向性分析的精准度。本文在实验中具体论证了主动学习算法以及其各个优化方法的有效性。中文微博同时还含有大量情感对象领域知识,如何有效利用这些知识对中文微博的情感倾向性分析产生帮助也是一个值得研究的课题。本文通过使用马尔科夫逻辑网算法,在传统机器学习的基础上,利用马尔科夫逻辑网算法通过使用一阶逻辑的规则描述,引入了微博情感对象领域知识,优化了情感倾向性分析的结果,并在实验中通过与传统机器学习算法进行比较体现了其引入新知识的有效性。在进行中文微博情感倾向性研究的过程中,发现当前做监督机器学习研究缺少一个统一的平台,控制流程的大量重复工作占用了宝贵的研究时间。为了高效完成中文微博的情感倾向性分析,并为以后更多的机器学习任务服务,本文设计并完成了一个高效实用的通用化监督学习平台,可以统一机器学习中的公共流程,实现对算法的高效试验和评估工作。本文中主动学习算法和马尔科夫逻辑网算法上的探索和实验均在此监督机器学习平台中完成,节省了大量重复工作所花费的时间,大幅提升了算法研究的效率。
其他文献
在信息技术、云计算等新兴技术的推动下,互联网上的软件服务数量急剧增多的同时,互联网的便捷性也使服务提供者面对的用户群体规模迅速增长,用户需求的个性化程度逐渐增大。
纹理分析在遥感、医学图像处理、计算机视觉及基于纹理的按图像内容检索等许多应用领域中具有重要意义。经验模态分解(Empirical mode decomposition,EMD)由Huang等人在1998
肤色检测技术的研究是目前图像识别与理解研究中的一个热点,它是很多基于肤色的应用的前期处理,如人脸检测、手势识别、色情图像识别及过滤等。稳健的肤色检测技术是这些计算机
数据挖掘指的是从大量数据中提取隐含的、事先未知的、并且潜在有用的知识的技术,是目前国际上数据库和信息决策领域最前沿的领域之一。聚类分析就是其中一个重要的研究方向,
由铝箔和纸料贴合而成的贴纸铝箔是香烟包装行业的主要包装材料,在烟箔生产过程中,对张力控制的好坏直接影响烟箔的质量,因此张力控制系统是复合机控制的关键技术。论文从复
路径规划就是指按照先验知识,在满足一定约束条件下,从有障碍物的环境中规划出一条从起点到终点的无碰撞路径。它在机器人学,地理信息系统,G IS等众多领域有广泛的运用,对它的研究
科学计算可视化是20世纪80年代发展起来的一个新的研究领域。它运用计算机图形学和图像处理技术,将科学计算过程中产生的数据及计算结果数据转化为图形及图像在屏幕上显示出来
随着社会信息化进程的不断发展,人们对信息的需求和依赖程度越来越高,如何从海量信息中快速有效的获取有用信息,已经成为人们研究的焦点。信息检索的研究可以帮助人们有效的
随着科学技术的迅速发展和工业化进程的持续深入,我国的航空航天事业有了长足的进步和举世瞩目的成就。作为空间探索的关键设备,航天器的性能很大程度上受到其回旋机构上的轴
随着世界经济的高速发展,商业活动中越来越注重追求高效率和自动化。特别是在一些零售行业、银行业,对货币自动识别的要求已经成为新的研究热点。如何快速、有效而又低成本地对