论文部分内容阅读
伴随着互联网(Internet)的兴起与网络(Wleb)3.0时代的到来,网络文本中包含越来越多的用户个人的倾向性评论内容。很不幸的是,主流的新闻报道是垃圾信息和有价值的评论信息的混合体,这种情况在网页文本中更加明显,特别是在对某些事件或产品的评论中。因而,要想在较短的时间内,从海量网页文本中准确获得对某些事件的有价值的评论是相当困难的;而文本情感倾向研究就是解决这种问题的方法之一。文本情感倾向研究即:对一个半结构化或无结构的文本,判别其是否包含主客观倾向性,并判定这些文本的倾向性,进而挖掘其中的表达对象、作用对象与情感表达的内容。文本情感倾向研究工作主要有两种基础策略:基于语法和语义规则特征的情感倾向研究与基于统计知识的文本情感倾向研究。本文从统计知识的角度出发,将统计机器学习的策略引入到文本情感倾向研究中。与一般情感倾向研究的策略不同,本文用评价对象识别出情感倾向内容;在词的有效拓展上,本文提出一种现实可行的基于邻接词的派生对象识别策略;在评价内容挖掘方面,本文采用半监督的机器学习算法,它把汉语的基本语义模式、模式的信息增益和词的上下文分布特征融合到挖掘算法中;并且整个研究工作使用三个领域的语料集进行交叉实验。