论文部分内容阅读
飞速发展的互联网技术极大的改变了人们的生活习惯。从前人们只能在家通过电视收看固定的电视节目,而现在可以通过手机,在任何一个视频浏览平台上找到自己想要看的视频或者是节目。从前人们只能再固定的场所使用电脑进行网络访问,而现在人们已经可以在任何地方使用各种各样的设备进行网络访问。这种转变使人们的生活更加便利,同时也产生了海量的用户网络行为数据。以前传统的数据处理模式无法处理海量数据,而随着云计算等技术的发展,使得对海量数据进行存储、处理成为可能。海量的用户行为数据看似杂乱且不相关,但随着商业智能系统和数据挖掘技术的发展,对这些数据进行剖析挖掘后,能对企业决策产生重要的影响。对于网络电视平台来说,可以利用这些数据分析后的结果,对特定的用户群体结合当前网络环境智能推送他们感兴趣的节目,这样能增强用户粘度,提高平台商业价值。本文以商业智能系统为背景,搭建一套BILOG系统。该系统能够收集用户网络行为,并且以LOG日志的形式存储在分布式数据库中。系统通过ETL(Extract Transform Load)对数据进行预处理,将收集的日志数据拆分成表,以便查询和计算。而后本文在Hadoop环境中使用MapReduce对用户基础数据进行清洗与生成,设定12个基础维度,并将每个维度的数据向量化,最终生成维度数据保存为csv格式用于聚类分析。本文预设10个类别,使用Weka软件作为平台,K-Means算法实现聚类分析。通过聚类结果可以发现,按照自动分配的质心和我们所划分的10个类,在最终的聚类结果中,每一类人群都有一些显著的特征,可以用来表征这一类人的兴趣爱好和行为习惯。通过对用户群体的兴趣概括提取并进行相应的界面展示和相关栏目推荐,可以达到增强用户体验,增加用户流量等目的,从而将数据价值转化为商业价值。本文研究重点在商业智能系统搭建以及数据挖掘算法实现个性化推荐,故本文不对数据采集做表述,本文中使用的数据为天池开源的微博用户数据,微博是当前活跃用户数最大的社交平台,且用户能够有点赞、评论、关注等一系列用户行为,通过这些用户行为的分析能够对用户进行分类。最后本文用特定的微博用户进行测试,在分好的10个类中各自有着明显的特征差异,表明用户分类基本准确。各类人群中都可以提取出相应的不同的兴趣爱好,通过相关栏目特征进行匹配,从而达到推送的目的。