论文部分内容阅读
随着互联网企业规模的壮大和扩展,网站的日志信息数量级也在同步增长。为了提供更好的服务、理解用户的访问特点和需求,需要对用户的访问行为进行分析,Web日志分析便由此产生。它将传统的数据挖掘技术与web日志结合起来,从大量的日志数据中提取出有用的信息,对用户的访问行为和访问量等进行统计分析,由此推断用户的访问模式。它在很多方面都能发挥作用,对于网络安全、网站的构建和电子商务的市场分析都有一定的帮助,是数据挖掘领域的一个新的研究方向。NoSQL是非关系型数据库的总称,它是为满足增长飞速的互联网应用需求而产生的数据存储技术。由于它易于扩展、在大的数据量下仍然有很高的读写性能、灵活的数据模型等各种特性,在一些应用场景得到了很好的发展,逐渐开始崭露头角。MongoDB便是NoSQL数据库的一个代表,它使用的面向文档的数据模型使其可以自动将数据拆分,然后分散存储在不同的机器上。这种自动分片机制实现了分布式扩展,可以将数据库中的集合、文档分布存储在多个数据库节点。MongoDB可适用的场合非常广泛,由于它这种良好的水平拓展性,适合存储低价值、大尺寸的文件,为互联网向云计算的发展提供了满足高并发、海量数据处理的数据管理技术。这种特点使其在Web日志分析领域中的发展如鱼得水。本文主要研究了基于MongoDB分布式数据库设计高效的Web日志分析方案。Web日志分析就是收集并存储用户访问网页时产生的日志信息,对这些日志数据转化、清洗和挖掘的过程。本文将MongoDB数据库与传统的关系型数据库进行比较,分析其优势与应用场景。其反范式的设计因嵌套避免了关联,使得对大数据的存储查询效率提高显著。通过将web日志存储在MongoDB中并直接用其内置的MapReduce并行地对日志进行分析统计,最后将分析结果存储为文件以供业务人员查询分析。旨在通过对web日志数据进行有效的数据挖掘,发掘隐藏在日志数据中的用户访问规律和模式,为优化网站结构和经营模式提供有用的信息。