论文部分内容阅读
国家提出大数据战略以来,互联网迎来的春天,随着用户的注册量和活跃度的增加,数据量也飞速的增加。随着信息的快速增长,访问量和金融消费数据的增加,每天的产生的消费金融日志和交易记录达到了TB级,传统数据的存储能力和访问速度对于快速增长的数据量越来越力不从心,这就导致了信息过载的问题的产生。目前对于信息过载的问题有两种处理办法,一是增加服务器增大存储,二对数据进行分区存储建立索引。但是随着数据量的增加这就带来另外的问题,首先增加服务器必然增加成本,其次在海量数据的场景下建立索引无法进行快速的数据检索,即用户的行为特征无法快速、准确地从海量的数据中分析出来。互联网技术的发展带来了“大数据”时代的到来,建立大数据分析平台,能够快速、准确的从海量数据中提取用户的行为特征,这对于精准营销,改善集群运行性能,提高服务质量至关重要。本文从信息的收集开始,利用JavaScript技术对贷款申请网站进行用户行为数据的抓取。然后对抓取数据利用Storm进行流式实时计算,一方面将其计算结果存储到Redis内存数据库,另一方面将结果存储在分布式数据库HBase中。对于查询响应效率的问题,本文在基于大数据平台的基础上引用了Solr索引技术,弥补HBase无法实现组合条件查询的问题。此研究项目在Hadoop的大数据架构之上通过大量的文献资料和企业用户的应用经验搭建了用户行为分析平台。主要研究内容包括:(1)研发基于JS数据抓取技术的数据采集系统;(2)研发基于Hadoop离线计算和实时流式计算Storm分布式计算框架的分布式存储数据库系统;(3)解决HBase与Solr相结合弥补HBase组合多条件不能查询的问题;(4)研究利用聚类的方法统计用户行为;(5)研究Rowkey和优化HBase参数提高数据库性能。