词汇动态特性与金融指数的相关性分析

来源 :贵州师范大学 | 被引量 : 0次 | 上传用户:yu830329
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
金融股市是国民经济的晴雨表,也是国家宏观经济发展的重要表现,因此了解金融股市是把握国家经济发展趋势的一个有效方向。然而金融股市是不断变化的,要了解、读懂它较为困难,那么是什么使其如此瞬息万变呢?起主要影响还是国家相关政策、财经新闻以及股民对股市的情绪等等。因此,本文以互联网财经文本为研究对象,从自然语言处理角度出发,探究财经文本中动态变化的词汇与股市指数变化的相关性,即:“词汇-指数”相关性。这一相关性问题被形式化为两个方面:一是股市指数的涨跌分类问题、二是股市指数变化趋势回归问题,使用机器学习方法分析财经新闻文本,训练回归、预测分析模型,最终通过模型预测结果分析“词汇-指数”相关性。将财经文本表示成词汇的集合,词汇在每天的财经文本中不断更新变化,即文本中词汇及词汇频率不断变化,将这种变化称为:词汇动态特性。利用词汇动态特性从文本中识别出那些与股市指数波动有较高相关性的词汇(highly-index-correlated term,HICT),其中HICT词的识别是通过分析词汇包含的股市指数信息量及其在时间序列上的频率分布方法来完成,并以HICT词权重值作为特征,训练涨跌预测和指数回归分析模型。通过以上模型对股市指数涨跌进行预测,对股市收盘指数或涨幅等进行回归分析,最终通过模型预测准确率和回归结果相关性来探索和验证“词汇-指数”相关性。实验使用Adaboost算法训练涨跌预测模型,使用最近邻回归方法对股市收盘指数和涨幅进行回归结果分析,并对各种HICT词特征选择方法实验结果进行比较,结果表明本文提出的特征选择方法效果最佳。为提高模型训练的效率和降低时间复杂度,使用主成分分析方法进行特征降维。在对上证指数的实验结果中,涨跌预测准确率达72%左右,指数回归结果Pearson相关系数在0.5左右,因此表明使用自然语言处理技术分析金融指数可行有效,进一步也表明财经文本中词汇动态特性与股市指数具有显著正相关。最后对模型进行误差分析以及未来研究方向进行论述。
其他文献
随着世界各国车辆数量的急剧增加,交通状况日益受到人们的重视。如何有效地进行交通管理,越来越成为世界各国政府和有关部门所关注的焦点。针对此问题,各种智能交通管理系统
物体的三维重建问题是虚拟现实和三维可视化领域的研究热点。论文主要研究物体三维数据点云的实现技术。以双目立体视觉的基本原理作为理论依据,构建由多台CMOS摄像机构成的
地震、火灾、矿难等灾难发生后,在废墟中搜寻幸存者给予必要的医疗救助,并尽快救出被困者是救员人员面临的紧迫任务。近年来为了满足救援工作的需要,国内外很多研究机构开展
视频监控是图像处理和计算机视觉领域的研究热点,近年来引起越来越多人的关注。视频图像中运动目标检测效果的好坏,会对图像分割、目标跟踪和行为理解等后期处理产生重要的影
数据挖掘是数据库中知识发现的一个重要步骤,传统数据挖掘是以数据对象作为研究基础的挖掘方法,注重算法的运行效率以及模型的准确率,是一种面向数据或者称为数据驱动的数据
随着家庭系统的数字化、网络化的发展和家庭数字产品的日益多样化,一个能对其进行统一、系统管理的系统就显得很迫切。本文在这样需求下,研究了一个基于Widget、UPnP和P2P技术
P2P技术为资源共享、协同工作等网络应用提供了一个自由开放的平台,带给用户一种更方便直接的交流方式。但是随着P2P技术的迅速发展,一系列问题也随之而来。P2P不但给网络安全
教与学优化算法(Teaching Learning based Optimization Algorithms,TLBO)是近年来提出的一种新颖的群体智能算法,模拟的是现实生活中教师教学与学生学习从而提高学习成绩的
现实世界中的流体现象十分丰富,其中,最有趣,最具挑战性,也最复杂的现象主要来自于流体与其他物体交互的过程。近年来,有关流体与静止或者运动物体的交互已经引起计算机图形学研究
人体行为识别技术是指计算机通过分析视频序列,实现计算机自动检测视频图像中的人体行为并识别行为具体类型的过程。行为识别的本质是时变数据的分类问题,论文通过研究室内日