论文部分内容阅读
互联网技术飞速进步,已渗透和影响到人们生活的方方面面,“互联网+”话题的热议更是带动了一系列行业的发展。在金融知识服务方面,互联网信息平台因其数据的实时性、访问的便捷性以及友好的可视化效果成为最主要的信息服务载体。2014年国内A股市场IPO重启,新股市场重新成为炙手可热的焦点,并在现有市场规则下新股表现出了不同于过去的新特点。本课题针对新股领域,将网络中的可靠信息作为信息源,对多元异构信息进行处理,并针对用户最为关心的新股相关问题进行分析与预测,构建了基于网络异构信息挖掘的新股知识服务平台,为用户提供新股基本信息及一字板相关问题的预测结果,将股票之间的相似关系进行图形化展示,为投资者提供便捷、全面的投资参考。本文主要研究内容包括以下几方面:新股的信息获取与预处理。信息是知识服务平台的根基,信息获取是构建知识服务系统的最基本的环节。本课题使用到的异构数据包括结构化的行情数据、web表格数据和非结构化的公告数据,针对不同的数据形式采用不同的方法进行处理,对公告中的数据进行抽取后检查抽取的准确性。新股一字板预测问题。对一字板现象进行定义及形式化描述,分别通过线性模型和集成学习方法对新股的一字板持续天数进行预测,精度达到2.7天,对同一批次的新股开板顺序预测精度达到91%。建立了基于滑动时间窗口的数据集构造方法,分别采用回归评价与排序评价两种评价方法对预测结果进行评价。新股开板后趋势预测。通过总结股票开板后的走势,将趋势预测问题定义为二分类问题,并讨论了分类的界定依据,采用多种分类算法对开板后五个交易日的趋势进行预测,分类准确率达到81%,并通过实验对比分析了各算法的性能。新股知识服务系统的构建。经过信息获取与预处理,对新股一字板持续时间及开板后趋势的预测,得到了用于构建知识服务系统的关键数据信息,构建基于网络异构信息挖掘的知识服务平台。对用户广为关注的行业信息进行关系定义及相似度计算,挖掘出所属相似行业、板块间的股票隐含关系,首次以关系网络的形式对股票所属的行业、板块关系进行展示,通过可视化的形式,简洁、直观的展示投资者最为关注的新股信息。