通过新浪微博数据挖掘预测上证综指走向

被引量 : 8次 | 上传用户:tommy8248
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络在最近几年发展迅速,国内的新浪微博覆盖面广,其内容产生便捷,传播迅速,提供了海量的直接或间接数据,故本文选取新浪微博作为数据来源,通过抽取新浪微博中的文本数据,结合上证综指的涨跌信息,发掘二者之问的相关性,并尝试建立预测模型,进而为股市投资者提供一定的参考信息。新浪微博文本数据的抓取,主要是通过自己编写网络爬虫来实现的。其中,重点分析并解决了用户登陆、高级搜索、单位时间内IP访问次数限制、文本析取、文本清洗、指标提取等问题。将整理后的新浪微博文本信息以及上证综指收盘价信息,结合人工神经网络算法,最终建立了新浪微博对上证综指收盘价的预测模型。本文主要创新点有:1.国内利用新浪微博数据预测上证综指走势的研究尚未发现,本文以此为出发点,利用新浪微博数据预测上证综指走势。2.新浪微博文本内容的抓取过程中,引入分布式系统的机制,解决了新浪微博在用户层次和IP层次上设置的反网络爬虫限制。3.本研究属于时间序列分析,文中创新的解决了新浪微博的搜索,在指定时间区间并指定微博相关关键词的条件下,成功抓取到微博内容。4.个性化的改进人工神经网络算法,加入可变数据集和自动修正特征,提高了模型预测精度。
其他文献
目的观察量化日常活动、饮食对慢性乙型肝炎(CHB)的临床效果。方法 CHB患者100例,按随机数字表法分为两组各50例,对照组按护理常规进行日常活动、饮食干预;干预组将患者各类
小微企业融资难问题普遍存在,绝大部分小微企业具有经营不规范、管理不科学、报表不健全、经营寿命短、抗风险能力弱、信用风险高又缺乏抵押担保物等普遍特点,再加上正规金融
罪犯再社会化是一项理论性、政策性、实践性很强的工作。本文选择了监狱罪犯再社会化作为研究对象,不仅仅是因为监狱是罪犯改造,罪犯再社会化的主要场所,而且因为罪犯的再社
西双版纳黄瓜(Cucumis. sativus L. var xishuangbannanesis Qi et Yuan)是我国特有的黄瓜变种,叶片颜色较其他黄瓜品种更为浓绿。叶绿素是重要的光合色素之一,影响植物的光
在当今的现实经济生活中,最常见的信用形式是企业信用。企业要在激烈的市场竞争中占据优势,除了提高产品质量、加强价格优势以外,另一个重要的方面就是要充分利用企业信用,提
理学也称道学、性理之学或义理之学。作为两宋理学家乐舞思想的考察,本文主要略述北宋二程兄弟和南宋朱熹的乐舞思想。另外写了北宋早期三大政治家(范仲淹、欧阳修、王安石)
期刊
围绕"如何上好一节课"展开科研活动,把先进的教学科研成果渗透到课堂教学中,是科研型教师的诉求。在阐述MS—EEPO有效教育的基础上,以"函数的概念"为例,展开有效教育课例研究
本文结合S公司的组织结构及原有生产管理的实际状况,通过发现公司原有的生产过程存在的问题,深入分析产生问题的原因,提出了一系列符合S公司实际情况的解决措施,充分运用公司
<正>一、可以渗透医学常识的内容初中生物可以渗入医学常识的内容很多,各册书都有。比如七年级上册讲了病毒的结构、种类、同人类的关系等,可以很自然地和医学常识结合在一起