论文部分内容阅读
自2008年金融危机以来,中国对世界经济增长的贡献率一直保持在30%左右,早在2010年中国就成为世界第二大经济体,2013年成为世界第一大货物贸易国①,2017年我国进出口贸易总额为27.79万亿元。国际航运服务于国际贸易,而国际贸易中90%的物流由国际海运来完成。20世纪70年代开始流行的集装箱技术让洲际运输成本进一步大幅度降低,为全球贸易提供了更加便利的条件②,近年来国际集装箱航运市场运价波动剧烈,不可预见性增强,而国际集装箱海运业是一个需要巨大投入的资本密集型行业,运价的剧烈波动给航运企业,贸易商以及行业整体带来了巨大的风险,运价波动趋势研究和运价预测一直是国际集装箱航运业关注的热点,国际集装箱海运运价预测的研究在提高行业成本管理水平、降低行业违约率、提高国际海运运输组织的执行效率以及政府决策量化参考等方面有着积极的作用。本文从情报预测是情报学重要的应用领域为起始,以研究国际集装箱海运运价预测的理论和方法为目标,概括出“国际集装箱海运运价预测研究”这一命题,在情报学知识发现框架指导下,沿着情报学对于信息的“源”、“流”、“用”的研究思路,结合当前的“大数据时代”,在概要阐述研究意义、国内外研究现状的基础上,构建了研究内容的框架体系;研究内容包括国际集装箱海运运价预测总体框架、国际集装箱海运运价信息集成模型和方法、国际集装箱海运运价数据特征处理方法、国际集装箱海运运价预测模型以及在大数据环境下进行国际集装箱海运运价预测实证分析等内容。国际集装箱海运运价预测总体框架部分,讨论了大数据视角下的国际集装箱海运运价预测的总体流程和框架。认为总体流程主要分为运价信息收集、运价信息处理和集成、探索性数据分析和运价数据特征处理、运价预测模型提出、运价预测模型运算和评估、运价预测模型的使用六个部分,其中运价预测模型的提出、模型的运算、模型的评估是整个研究的难点和重点,而运价信息的处理和集成、运价数据特征处理是运价预测实际操作中具体工作量较大的一个部分。国际集装箱运价信息集成模型和方法部分,主要解决异源异构运价数据的集成问题。认为随着互联网、电子商务和信息技术的发展,国际集装箱海运运价信息越来越呈现出数字化、集中化和实时性强等特点,这为使用数据挖掘技术进行运价预测提供了现实基础,但需要研究信息集成方法来解决运价信息的异构问题;探讨运价预测的要求及运价信息现状后,提出了基于数据仓库的运价信息集成模型、Web运价信息及增量信息获取和集成方法,设计知识库和规则库,运用信息集成模型对异源异构运价信息进行了集成。运价数据特征处理含数据处理和维度衍生两个部分,讨论的技术和方法是为了保证运价数据符合数据挖掘算法的要求和提高运价预测的准确程度。数据处理主要包括对于异常和无效、历史拉链断链等运价数据处理的流程和方法,关键信息与原始运价数据整合方法、特殊特征属性转换方法等的研究;围绕基本运价数据的维度衍生策略主要包括横向、纵向、历史变化、指数日期等维度衍生的方法,以及预测目标维度的衍生策略。基于数据挖掘方法的运价预测模型部分探讨了国际集装箱海运运价预测的总体框架,针对预测运价即期走势(分类问题)和涨跌幅(回归问题)这两个目标讨论了预测模型和结果评价指标体系。并尝试对传统的数据挖掘算法进行优化,讨论了自适应网格搜索策略,以优化算法的超参数调优方法;针对国际集装箱海运运价数据具有明显的时间序列特征,探索了基于时间序列的留出法(THO),以优化预测结果评价策略,降低泛化误差;讨论基于梯度提升决策树(GBDT)算法的并行计算及预排序后的损失函数迭代运算优化策略,提高GBDT算法在大数据环境下的运算效率。运价预测实证研究部分,面对海量的国际集装箱海运真实运价数据,结合运价预测模型未来的大数据应用环境,按照本文讨论的流程、方法、模型和优化策略,设计和构建基于大数据技术的信息化平台,进行国际集装箱海运运价的即期走势和涨跌幅预测。数据来源有三个渠道,一为某市国际集装箱海运订舱电子商务平台(物贸汇)的历史运价数据,二为某大型国际货运代理企业业务系统的运价数据,三为采集自国内较为知名的国际集装箱海运订舱业务网站(叁陆伍网络等)的Web运价数据,数据总量约为960万条。实证研究表明,本文探索的国际集装箱海运运价预测的流程、模型和方法等内容,成功地探索出从运价信息采集、分析和集成、运价信息处理到运价预测的实现路径,且预测效果明显优于传统时间序列方法的预测结果。文章的最后总结了本文的研究与不足,并对下一步的研究进行了展望。