论文部分内容阅读
近年来,随着信息化与数字化的发展,广告业也有了天翻地覆的变化。而随着互联网的愈发普及,网络广告已经成为了广告业中的重要主体。通过传统的静态投放方式,巨大的投放费用无法换来物有所值的有效受众数量,广告主投放广告的过程总是伴随着超过一半资金的巨大浪费。 动态投放是一种新兴的广告投放方式,通过基于人群分类的投放优化方案,可以使广告主以更少的投入获得更多的有效受众;也可以使网络媒体获得更高的广告位收益,从而达到双赢的局面。但是人群分类需要积累足够的数据量才能保证准确性,即必须解决海量数据的存储与计算问题。 我所在的人群分类项目组正在面对上述问题。在收集并积累网民的上网行为后,只有当分类系统拥有对与日俱增的海量数据进行存储与计算的能力时,才能有效利用各种分类算法,来达到更好的人群分类效果。 本文通过广泛调研,先后提出了两种人群分类系统中存储模型和计算框架的方案,分别对其进行设计实现并进行了效果评估。基于Hadoop的实现方案具有研发迅速、不需考虑数据备份与迁移等优点;然而性能受Hadoop框架所限制,且HBase的稳定性较低。基于自主实现的实现方案的最大优点是性能有了较大提升,并且可以方便地修改以满足不同业务需要;缺点是具备更长的研发周期,且数据备份与迁移需要自主实现。