论文部分内容阅读
全球经济目前正处于一个重要的转型时期,如何更及时并准确地获取信息资讯成为人们越来越强烈的需求。目前,互联网新闻媒体由于其报道的便捷性和及时性的特点,已成为大众接收信息的主要来源。任何带有消息面的新闻报道都非常有可能直接造成股市的波动,如何根据互联网上的新闻报道对股市进行快速准确的分析就成为金融机构和投资者不得不考虑的问题。近年来,由于数据挖掘和人工智能等技术的兴起,通过互联网媒体信息以研究股市变化规律的研究思路变得可行。但由于这方面的研究涉及到心理学、经济学、计算机科学、统计学和语言学等多种学科,目前这类研究还处在起步阶段。国外学者在该领域的研究对象以英文文本为主,且已经开发了相关的一些研究工具。但因为语言、媒体环境和技术手段等条件的不同,基于中文的分词技术、情感分析方法等还不够成熟,因此该领域的研究还有很多技术难题亟待解决。由此可见,探索互联网财经新闻对中国股市影响这一问题是一个既有理论意义又有实践价值的研究课题。本文分别从互联网财经新闻的情感和主题角度出发,来探究财经新闻对中国股市的影响,希望为未来股市的研究提供一些新的思路。在理论和方法研究部分,本文首先介绍了与文本挖掘相关的理论,比如中文分词、特征提取、文本分类等。然后对文本情感分析进行了阐述,介绍了如何进行情感倾向性分析以及情感词典的构建方法。接下来讲解了财经新闻主题信息的提取方法,即主题模型,并对LDA主题模型进行了详细的介绍。最后介绍了本文所使用的对股市进行预测的模型,即逻辑回归和支持向量机,并阐述了本文使用的模型评价指标。在实证分析部分,本文分别从以下两个方面研究了互联网财经新闻对股市的影响。第一,本文从情感分析角度研究了财经新闻与个股股价的关系,这里的个股选择了中国平安、招商银行、贵州茅台和中国联通这4只股票。在进行分析之前需要先对新闻的情感倾向进行量化,本文采用基于情感词典和语义规则的方法来分析新闻的情感倾向。首先,构建本文所需要的情感词典,这里借助已有的基础情感词典并利用SO-PMI算法对基础词典进行扩展,得到面向财经新闻领域的情感词典,以及程度词词典、否定词典与转折归总词典等,并为各词典中的词语设定了相应的权值。然后,在情感词典的基础上,定义了一系列语义规则,来计算情感单元的情感值,进而得到句子以及篇章的情感值。接下来对财经新闻的情感值序列和个股收益率序列之间的相关性进行了初步的分析,发现对于4只个股而言,二者的相关性均会随着时间而改变,而且在新闻报道几天后,新闻的情感倾向对个股的收益率依然有一定程度的影响。最后,本文利用逻辑回归和支持向量机建立了模型以预测个股股价的走势,并比较了实验模型和三个基准模型的预测性能。实证结果表明,不管是采用逻辑回归还是支持向量机,对于4只个股而言,实验模型的预测精度均高于三个基准模型,验证了本文提出的利用财经新闻情感词典和语义规则的方法来量化新闻情感的有效性。此外,在该问题上,使用支持向量机进行预测的效果要好于逻辑回归。最后,本文比较了只基于历史收盘价以及基于历史收盘价和新闻情感值而建立的模型,结果表明在历史股价数据的基础上引入新闻情感值的确能在较大程度上提高对于个股股价走势的预测。第二,本文从主题角度研究了财经新闻与行业板块指数的关系,以沪市的9个行业板块指数为研究对象。首先对新闻进行预处理,并形成新闻语料库。通过LDA主题模型将新闻语料聚类出80个主题,并可由此得到每篇新闻的主题概率分布,对新闻主题的特征和主题分布进行了简要的分析。然后使用Kendall秩相关检验对每日财经新闻的主题分布排序与行业板块收益率排序之间的相关性进行了检验,结果表明两者有显著的相关关系,说明新闻的主题分布会对行业板块收益率产生影响。最后,本文以三个代表性行业板块为例,利用格兰杰因果检验对板块指数收益率和对应的主题分布进行了分析,结果表明了二者相互存在影响。同时,利用财经新闻主题分布预测了三个代表性行业板块指数的走势。预测的F1值分别为69.7%、69.69%和62.3%,说明新闻主题有助于预测行业板块指数的走势。因为新闻主题的分布情况代表着媒体对不同话题的关注度,这正反映了该期间发生的时事、政策变化等,继而会影响投资者的行为,也就对股市产生了影响。这一实证结果验证了新闻主题间接地对股市产生了影响这一说法。