论文部分内容阅读
早期中药饮片企业各业务系统在建立生产经营活动时并未考虑到各系统之间存在的数据联系与冲突的问题,使得在分析数据时不能及时地、有效地、准确地反应企业运营情况。传统商业智能设计最初目的是对企业数据进行有效整合并获得相关业务报告,以帮助企业实现最终决策分析。随着互联网应用规模的不断扩大,企业需要处理的数据量呈指数增长,数据结构日趋复杂,业务运营压力急剧增加,对数据处理和分析能力提出了更高的要求。传统的BI系统已逐渐不能满足企业数据分析的需要,个性化、数据化、科学化的数据分析技术逐渐使传统的BI系统需要与大数据技术相结合。本文将传统的BI系统的底层数据存储形式转换成基于Hadoop分布式的存储数据,其目的是既能够存储结构化数据又能存储非结构化数据,从而以适应现金社会数据存储的多样性。商业智能体系主要包含数据仓库构建(ETL数据处理),联机分析处理,数据挖掘以及数据可视化四个方面。本文采用原型法和星型模型来设计数据仓库,从企业各业务系统中用Sqoop抽取相关数据集保存在数据仓库Hive中,根据具体需求对数据进行转换与装载。采用ETL处理的主要目的是将操作型数据转变为应用型数据,便于用户进行联机分析处理。由于之前采用构建立方体工具是针对少量数据的,为了解决在大数据环境下构建立方体的问题,联机分析采用基于Hadoop的Kylin构建的数据立方体,从而实现多维数据查询以及相应的联机分析处理操作。数据挖掘主要运用关联规则对中药企业饮片销售系统数据进行购物篮分析,得出各中药饮片在销售时存在的联系,并采用K-Means算法对消费者群体进行分类分析。数据可视化是用Tableau工具基于Hive构建的数据仓库实现的,通过可视化的图表分析可以帮助企业发现隐藏的知识并有助于企业决策。本文研究结果表明基于大数据技术的商业智能系统是可行的、可实施的,该研究整合多个开源项目,提供了丰富的、可集成的、易于操作的商业智能分析平台。本项目通过收集中药饮片企业生产经营活动的数据,基于大数据技术构建数据仓库,实现了对企业数据的OLAP分析、数据挖掘以及数据可视化,从而帮助企业降低运营成本,提高企业的行业竞争力。