论文部分内容阅读
金融股市是国民经济的晴雨表,也是国家宏观经济发展的重要表现,因此了解金融股市是把握国家经济发展趋势的一个有效方向。然而金融股市是不断变化的,要了解、读懂它较为困难,那么是什么使其如此瞬息万变呢?起主要影响还是国家相关政策、财经新闻以及股民对股市的情绪等等。因此,本文以互联网财经文本为研究对象,从自然语言处理角度出发,探究财经文本中动态变化的词汇与股市指数变化的相关性,即:“词汇-指数”相关性。这一相关性问题被形式化为两个方面:一是股市指数的涨跌分类问题、二是股市指数变化趋势回归问题,使用机器学习方法分析财经新闻文本,训练回归、预测分析模型,最终通过模型预测结果分析“词汇-指数”相关性。将财经文本表示成词汇的集合,词汇在每天的财经文本中不断更新变化,即文本中词汇及词汇频率不断变化,将这种变化称为:词汇动态特性。利用词汇动态特性从文本中识别出那些与股市指数波动有较高相关性的词汇(highly-index-correlated term,HICT),其中HICT词的识别是通过分析词汇包含的股市指数信息量及其在时间序列上的频率分布方法来完成,并以HICT词权重值作为特征,训练涨跌预测和指数回归分析模型。通过以上模型对股市指数涨跌进行预测,对股市收盘指数或涨幅等进行回归分析,最终通过模型预测准确率和回归结果相关性来探索和验证“词汇-指数”相关性。实验使用Adaboost算法训练涨跌预测模型,使用最近邻回归方法对股市收盘指数和涨幅进行回归结果分析,并对各种HICT词特征选择方法实验结果进行比较,结果表明本文提出的特征选择方法效果最佳。为提高模型训练的效率和降低时间复杂度,使用主成分分析方法进行特征降维。在对上证指数的实验结果中,涨跌预测准确率达72%左右,指数回归结果Pearson相关系数在0.5左右,因此表明使用自然语言处理技术分析金融指数可行有效,进一步也表明财经文本中词汇动态特性与股市指数具有显著正相关。最后对模型进行误差分析以及未来研究方向进行论述。