论文部分内容阅读
网络已被公认为是继报纸、广播、电视之后的“第四媒体”,成为反映人们情感的主要载体之一。用户在网络上发表自己对于某种产品的评价,对于厂家和潜在购买者来说,都是很有研究价值的。厂家希望从中了解到自己的产品性能评价,也掌握竞争对手的产品性能;潜在购买者希望从别人的评价中获得参考和建议。但是Web上的信息是海量的,仅依靠人工进行网页浏览、观点分析将是一项费时而又低效的工作。因此,观点抽取技术具有非常大的研究价值。语义极性分析和观点抽取是指利用计算机技术自动分析句子或文档,从中提取出用户感兴趣的主题或特征,并分析其语义极性倾向(褒义、贬义或中性)和强度。传统的信息抽取和信息检索研究的重点是针对客观表达的事实信息,不适用于网络评论观点抽取。观点是主观性的,这需要能够自动抽取主观性观点的技术,从用户评论中自动抽取出产品特征的极性倾向。目前,许多研究机构已经运用自然语言处理技术对网络评论进行观点抽取,取得了一定的成就。本文尝试利用自然语言处理方法,对中文句子的语义极性倾向进行进一步研究,提出了一些看法,并对一些算法作了改进。本文根据一些词语的上下文极性的特征,分析名词的特点,通过给这些名词赋予极性的方法,解决动态极性问题:在观点抽取方面,为了较好的处理主题词和极性成分的匹配问题,判断句子中每个主题的极性倾向,本文吸取语义块和依存关系的思想,提出了极性收缩传递算法,最终确立主题观点。并对感叹句和问句进行研究,取得了一定的成果。最后,本文通过测试,将自动抽取的观点与手工标注结果进行比较,得出召回率和准确率,并和其它算法结果数据比较,证明了极性收缩传递算法的有效性。本文解决了一些其他研究者未解决的问题,提出了极性收缩传递算法,但是该算法对于其它的一些特殊句型无法得出正确的结果,有待进一步的研究。