论文部分内容阅读
微博作为一种新兴的文体受到了广泛的关注,在国内外多个评测的推动下,关于微博的情感分析研究已成为NLP研究领域的一个热点,微博平台上存在海量的观点性文本,可以通过对它们的分析,了解用户喜好,既有理论意义,又有使用价值。本文面向中文微博这一特殊文本,进行观点句识别及要素抽取研究,针对中文微博的特点,寻找合适的情感分析方法。由于观点句识别是要素抽取的前提,为保证其准确率,采用有监督的机器学习方法,使用SVM分类器结合一元词形特征对微博进行情感分类。文中对比了多种特征表示方法的分类性能,并利用信息增益减少特征集中的特征数目。实验表明,TF-IDF的权值设定方法更适合于中文微博的情感分类任务,在使用的特征数目为特征总数的20%时,其最高准确率达到95.54%。同时,本文比较了不同特征表示方法在单子句微博和多子句微博上的分类效果,结果显示,离散表示法和分布方式的句子建模方法在多子句微博中的准确率较高,而组合方式的句子建模方法更适用于单子句微博。在要素抽取方面,为了避免不同类别微博之间的相互干扰,首先利用LDA模型对语料进行主题分类,并确定每个类别的主题词;然后采用双层关联规则挖掘算法抽取其中的对象层及属性层候选频繁项集,在结构和语义两个层面上对频繁项集进行紧密度剪枝和可信度剪枝;制定筛选和定界规则,根据频繁项集获得每条微博的对象层及属性层要素;使用词的位置信息和点互信息对应对象层和属性层要素,并通过观点句识别的结果确定要素的情感倾向性。实验数据采用第六届中文倾向性分析评测所发布的数据,实验结果与2014年评测的最好结果基本持平,F值为23.83%,而对象层要素和属性层要素抽取结果均好于评测最好结果,F值分别为46.66%、46.48%。