基于条件随机场的中文比较句倾向性研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:lilanlan999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入web2.0时代以来,中国的网民数量不断攀升,使以互联网为代表的新兴媒体成为大众表达愿望、交流沟通的重要工具,用户的身份从以往的信息接受者转向为信息发布者,这就使得互联网上堆积了大量用户产生的信息,这些信息当中蕴含着用户的情感态度和政治倾向。挖掘用户产生信息中的情感信息,分析用户的情感倾向性,对商品推荐,了解社情民意等有着重要意义。比较句是用户产生信息中常见的一种句式,通过对两个事物的比较,可以判断出同类的两种事物中的异同和优劣,对这一类问题进行研究解决可以在产品评论挖掘、客户信息管理、社情民意收集等领域提供信息支撑,对实体识别、关系抽取、类别平衡等热点问题的研究有一定的参考价值。对比较句的倾向性研究是综合自然语言处理中多个关键技术于一体的研究,包括文本分类、实体抽取、情感分析等。本文所研究的内容是在第四届和第五届中文倾向性评测任务的基础上,对中文比较句进一步研究,包括比较句识别、比较关系抽取以及比较句的情感倾向性判定,主要研究工作包括以下几个方面:(1)利用关联特征词表进行比较句识别。关联规则是形如X→Y的蕴涵式。其中, X和Y分别称为关联规则的前导和后继关联规则挖掘问题就是在事务数据库D中找出具有用户给定的最小支持度minsup和最小置信度minconf的关联规则。本文依据该算法的基本原理构建关联特征词典,将总结出来的比较句特征以规则的方式存储到关联特征词典中用于中文比较句的识别。(2)利用条件随机场模型进行比较关系抽取。比较关系抽取是指提取出比较句的关键组成元素。比较句的组成要素包括比较主体、比较客体、比较属性和比较结果。条件随机场理论是2001年首次被提出的,结合了最大熵模型和隐马尔可夫模型的特点,近些年在倾向性分析、词性标注和命名实体识别等序列标注任务中取得很好地效果,被广泛应用到信息抽取领域。本文分别利用条件随机场的学习方法和预测方法对比较句进行特征提取和模型训练,抽取出比较句的主要组成元素,并结合比较句的句式特征分析出比较主体、比较客体、比较属性及比较结果。(3)利用情感词典对比较实体进行倾向性计算比较句的倾向性分析主要是判断评论人对比较句中的比较主体和比较客体的情感倾向性。本文在前两部分研究工作的基础上通过构建多个情感词典的方法来计算比较句中实体的倾向性。
其他文献
人脸识别的研究始于二十世纪六十年代中后期,是模式识别,图像处理、分析与理解,计算机视觉以及人工智能研究的一个重要领域,也是近40年来在全球范围内迅速发展起来的根据生物特征
实时组编辑支持多个异地用户通过网络同时地并发地参与一个共享文档数据(文字、图形、媒体等)的编辑和修改,是计算机支持的协同工作(CSCW)领域的一个重要研究方向。现有的实时
索引服务是提供信息聚合的服务,它收集网格服务的注册信息,并以WSRF(Web Service。Resource Framework)资源属性的方式发布信息,提供虚拟组织(Virtal Organization)范围内服务信
Ad Hoc网络是一种无中心、自组织和自管理的、由移动节点组成的动态变化的多跳无线网络。由于可以在没有常规基础设施支持的情况下提供灵活方便的通信,这种技术拓宽了移动通
信息技术与网络技术的快速发展带来企业管理方式的不断更新。随着因特网技术的不断进步,在电力行业中,跨网监控逐步成为一种不可或缺的监控方式。传统的B/S、C/S模式系统逐渐暴露
本文的研究是以广州市重点攻关项目“分布式突发卫生事件信息调查系统”为背景的,在此项目中使用了开源的acfiveBPEL 引擎。原有的流程定义工具acfiveBPEL Desiner在实际应用
基于内容的视频检索是未来多媒体应用的一个重要方面,而镜头检测是确定视频中镜头变化的边界,是视频处理的第一个步骤,是随后的高层内容分析、分类、索引和查询的基础。镜头检测
传统的软件系统维护和调整都是通过停机升级的方式进行的。然而对于航空通讯系统、工业控制系统、医疗生命系统等关键性系统而言,停机升级将威胁人们的生命安全或者带来巨大的
共代数是代数的对偶概念,基于观察的角度考察集合及其上操作。计算机科学中很多系统都可以归结为共代数,如自动机、抽象数据类型、面向对象设计语言等。目前,共代数方法已经被证
近年来,随着税务系统“金税工程”各期的推进,国税系统基本由省一级税务局集中处理信息。 在这种数据省级集中的大环境下,中国税收征管信息系统第二版(简称“CTAls2”)在全国