基于分布式存储数据库的银行用户行为分析平台应用与研究

来源 :武汉轻工大学 | 被引量 : 0次 | 上传用户:kkfhvk1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
国家提出大数据战略以来,互联网迎来的春天,随着用户的注册量和活跃度的增加,数据量也飞速的增加。随着信息的快速增长,访问量和金融消费数据的增加,每天的产生的消费金融日志和交易记录达到了TB级,传统数据的存储能力和访问速度对于快速增长的数据量越来越力不从心,这就导致了信息过载的问题的产生。目前对于信息过载的问题有两种处理办法,一是增加服务器增大存储,二对数据进行分区存储建立索引。但是随着数据量的增加这就带来另外的问题,首先增加服务器必然增加成本,其次在海量数据的场景下建立索引无法进行快速的数据检索,即用户的行为特征无法快速、准确地从海量的数据中分析出来。互联网技术的发展带来了“大数据”时代的到来,建立大数据分析平台,能够快速、准确的从海量数据中提取用户的行为特征,这对于精准营销,改善集群运行性能,提高服务质量至关重要。本文从信息的收集开始,利用JavaScript技术对贷款申请网站进行用户行为数据的抓取。然后对抓取数据利用Storm进行流式实时计算,一方面将其计算结果存储到Redis内存数据库,另一方面将结果存储在分布式数据库HBase中。对于查询响应效率的问题,本文在基于大数据平台的基础上引用了Solr索引技术,弥补HBase无法实现组合条件查询的问题。此研究项目在Hadoop的大数据架构之上通过大量的文献资料和企业用户的应用经验搭建了用户行为分析平台。主要研究内容包括:(1)研发基于JS数据抓取技术的数据采集系统;(2)研发基于Hadoop离线计算和实时流式计算Storm分布式计算框架的分布式存储数据库系统;(3)解决HBase与Solr相结合弥补HBase组合多条件不能查询的问题;(4)研究利用聚类的方法统计用户行为;(5)研究Rowkey和优化HBase参数提高数据库性能。
其他文献
目的研究流行性脑脊髓膜炎(流脑)流行菌群的变迁趋势。方法对广东省1966~2009年分离的656株流脑菌株的血清群构成进行分析。结果 656株流脑菌株中,A群占24%、B群占47%、C群占9
目的了解大学生母乳喂养知识、态度和意愿的现状,为更好地在该人群中开展母乳喂养宣教提供科学依据。方法采取便利抽样的方法,于2015年5—6月抽取重庆5所高等院校当天有课班
随着我国经济和饭店业的发展,市场对高星级饭店经营与管理提出了更高的要求,如顾客满意度、客房舒适度等,成为饭店业发展的重点。文章分析高星级饭店客房舒适度管理的误区及
在第四届中国京剧节期间,作为重要内容之一,是举办梅兰芳、周信芳诞辰110周年纪念活动,很有意义.缅怀这两位对京剧作出卓越贡献的大师,重温他们的戏剧观念、美学见解和艺术实
离退休作为企业的一个重要组成部分,为企业的发展和社会的进步做出来很大的贡献,所以做好企业离退休人员的管理工作至关重要。本文就新形势下做好离退休职工管理工作的重要性
为了改善ABR反应器的设计和运行,在实验室条件下,通过CFD(computational fluid dynamics,计算流体力学)技术和RTD(停留时间分布)曲线测试技术,分析不同结构参数下ABR反应器的
本文介绍了氯化苯生产中黑料出现的原因,焦化苯中的有害杂质。以及微库仑测硫仪使用后,通过检验焦化苯中硫化物的含量,降低了生产消耗,提高了成品质量。
本报北京讯(记者曹英 □张琴琴)“山西是国家以煤炭等资源开采为主的能源和原材料供应基地,应先行试点煤炭资源税改革,实行从价计征。”全国人大代表、山西省财政厅厅长郑建国在
报纸
观世界各国立法,不难发现对设立中公司的法律地位等问题多采回避态度。我国也只确立了发起人在公司设立过程中的法律责任,理论上和实践中都出现了各种难题无法解决,因此有讨
为了保障小学生在校锻炼时间不少于一小时,必须确保小学生大课间体育活动的质量和成效。当前,我国农村小学大课间体育活动的质量和效果还有待提高,本文分析了影响农村小学大