论文部分内容阅读
互联网技术的高速发展给人们提供了一个开放的平台,越来越多的人开始在网上讨论时事分享观点。这造成了互联网上的信息资源正呈几何倍数增长。同时,由于互联网覆盖面广、用户参与度高,通过交互产生的大量信息资源也成为了各领域管理者进行决策的重要参考依据。对这些信息资源的充分挖掘,有助于决策者更深入地把握发展方向。金融市场中的投融资活动更是如此,信息不对称可能给投资者带来极大的风险,也不利于金融市场的稳定健康发展。金融论坛中,集聚了大量的投资者,他们对金融热点问题的讨论和对当前市场的看法形成了海量的非结构化文本数据。这些数据中蕴含的情感和态度无论是对于市场监管层还是投资者来说都具有重要的意义。因此,有必要根据其特点设计情感分析算法。情感分析是自然语言处理中的一个热点和难点问题。本研究首先对相关研究进行了梳理和总结,构建了金融论坛领域情感分析的基础资源,如情感词典、语料库等。其次,在情感分析算法的设计上,本文主要基于依存句法的分析结果对句子进行情感挖掘。考虑到中文语法中主语、谓语和宾语是句子中的主干成分,本文提出了情感主干的概念。并在人工经验的基础上,总结了若干情感计算规则,据此提出了金融论坛文本的SPO情感分析算法。然后,在此基础上,本文分析了词语间的情感计算规则,在词语间计算模型中引入交互项,以便能更深刻地刻画词语组合对文本情感的影响。最后,在估计计算模型的参数时,人工标注了一批训练数据并使用遗传算法进行参数估计。以此为基础,提出了金融论坛文本的GA-SPO情感分析算法。实验结果表明,对句法信息进行挖掘的SPO算法较基于词频统计的传统机器学习算法在各评测指标上均有明显的提升,特别是在负向文本上,提升更为明显。表明了句法信息在金融论坛文本情感分析中的作用。而改进词语间情感计算方式后的GA-SPO算法相较于SPO算法,在同一测试集下也有更好的表现。