文本倾向性分析技术的相关研究

来源 :安徽大学 | 被引量 : 2次 | 上传用户:lalalalalaaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着Internet和互联网技术的发展以及博客、论坛、客户服务平台、电子商务平台等诸多应用的提出,将人们的现实生活带入一个全新的电子信息时代。网络上存在大量的富含感情色彩的文字,而且这些文字的表现形式不单单只是文字上的表述,会有图片、动画等这种非结构化的表现形式,因此仅仅是靠人工梳理将会面临处理周期长、费用高等问题。在如此大规模的评价文本中,人们急切的找到一种方法能够进行情感倾向性分析,并提取出人们所感兴趣的情感信息,正在这样的需求背景下产生了文本倾向性分析研究。随着新领域的不断涌现、各个领域的信息量急速增加,由于在训练域里显示有强烈倾向性的词在测试域里不再有强烈倾向性,在这种研究背景下产生了跨领域倾向性分析问题。跨领域倾向性分析相对而言是一个全新的研究领域,对此目前的研究工作还比较少。本文的重点就是在构建跨领域词典算法的基础上,以跨领域文本倾向性分析技术为目标,重点对以下几个方面进行深入的研究:首先,介绍了文本倾向性分析研究的背景与意义,并在分析目前国内外情感倾向性分析研究现状的基础上,分析了情感词典的构建与文本倾向性分析所面临的挑战,最后进一步明确了跨领域文本倾向性分析研究的意义和必要性。然后,主要对文本倾向性分析做了概述性的介绍。文本倾向性分析过程是首先通过中文分词技术得到能够体现文档情感的关键词语,然后根据词典构建算法来构建词典,本文分别介绍了通用词典构建技术和领域词典的构建技术。通用词典构建技术中包括基于知网的通用词典构建,基于函数优化的方法和基于Modularity优化的方法;领域词典的构建技术主要介绍基于改进的信息瓶颈算法,本文从理论与实验两个角度分别分析了方法的收敛性和有效性等特性。最后介绍了文本倾向性度量方法,主要是先利用计算词语相似度的方法获得词语的倾向性,根据累加原则,再得到语句的倾向性继而得到文本的倾向性。第三,重点分析了跨领域文本倾向性分析技术。针对跨领域情感倾向性分析研究,主要介绍了文本倾向性分析应用技术的领域移植技术。通过分析源领域与目的领域的特征空间之间的共性与差异,为了消除特征空间差异对分类器性能造成的负面影响,本文提出了基于监督学习的倾向性分析方法的领域移植模型;为了平衡源领域数据并获得目标领域信息,提出了基于贝叶斯学习的情感移植模型;基于图排序模型的跨领域倾向性分析算法的主题思想就是在图排序算法的基础上,利用源领域的训练文本中已标注的准确标签和目标领域的测试文本的由计算所得初始化的伪标签来迭代进行倾向性分析。第四章,介绍了本文实验所用的数据集和对实验结果的评价标准以及文本情感倾向性分析开发的平台。基于开发平台设计并实现了一个跨领域文本倾向性分析系统。在跨领域文本情感倾向性分析系统中,系统在跨领域情感词典构建的基础上,利用图排序模型来实现跨领域倾向性分析。
其他文献
基于生物感知的图像显著特征分析在二十世纪九十年代末兴起,并逐渐成为生物视觉感知领域研究的焦点。该方法结合人类心理学和生理学理论知识,基于人类视觉注意机制,模拟人眼
本文是以步态识别为应用背景,主要探讨了步态识别中的模板选择和模板上的特征提取问题。步态识别经历多年的发展,逐渐形成了基于模型和无模型两种基本稳定的框架,基于模型的
随着计算机和通信技术的迅猛发展,多媒体技术也日新月异,网络娱乐节目的内容形式从由文字和图片为主逐渐向视频过渡。网络提供给人们享受丰富多彩视频节目的同时,也给色情、
互联网的飞速发展为BBS的普及提供了条件,目前BBS己经成为一种常用的交流工具,网民可通过BBS发起新话题或回复现有的话题来表达对某个事件的看法。从一定角度来看,BBS是现实
路径剖析是动态分析的一项重要技术,通过获取和分析程序中各条路径的执行次数,在编译优化、软件调试和测试等诸多方面发挥重要作用。路径剖析采用在待剖析程序中插装探针的方式
学位
近年来,海量的信息数据随互联网时代的飞速发展不断注入到Web当中,因此从Web中精确地获取所需信息的重要性也日益凸显。但由于Web页面中信息种类的繁多、结构格式之间的差异
在故障检测和诊断中,由于在残差信号中可以提取到相关的故障信息,因此故障检测的首要任务就是要获得系统的残差信号,残差成为故障检测算法设计的主要目标。在控制系统中,系统
面部表情识别是实现智能化人机接口的一个重要方面,通过表情能够反映出人的喜、怒、哀、乐等感受及其它复杂的心理活动。在列车舒适度的评价中,将面部表情识别技术应用于评估
智能电网即电网智能化是促进可再生能源的发展、实现节能减排和可持续发展的一个重要手段。智能电网较传统电网网络结构更加庞大,网络环境更加复杂,因此将面临更多的网络安全威胁。然而对电力信息系统传统的风险评估已难以应对电网智能化所面临的大量网络安全威胁。如何对电力信息系统进行实时、动态的风险评估将成为今后风险评估研究课题的重点。本文在研究了信息安全风险评估相关理论及电力信息系统安全特性的基础上,通过引入改