人群分类系统存储模型与计算框架的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:axiaaawei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息化与数字化的发展,广告业也有了天翻地覆的变化。而随着互联网的愈发普及,网络广告已经成为了广告业中的重要主体。通过传统的静态投放方式,巨大的投放费用无法换来物有所值的有效受众数量,广告主投放广告的过程总是伴随着超过一半资金的巨大浪费。  动态投放是一种新兴的广告投放方式,通过基于人群分类的投放优化方案,可以使广告主以更少的投入获得更多的有效受众;也可以使网络媒体获得更高的广告位收益,从而达到双赢的局面。但是人群分类需要积累足够的数据量才能保证准确性,即必须解决海量数据的存储与计算问题。  我所在的人群分类项目组正在面对上述问题。在收集并积累网民的上网行为后,只有当分类系统拥有对与日俱增的海量数据进行存储与计算的能力时,才能有效利用各种分类算法,来达到更好的人群分类效果。  本文通过广泛调研,先后提出了两种人群分类系统中存储模型和计算框架的方案,分别对其进行设计实现并进行了效果评估。基于Hadoop的实现方案具有研发迅速、不需考虑数据备份与迁移等优点;然而性能受Hadoop框架所限制,且HBase的稳定性较低。基于自主实现的实现方案的最大优点是性能有了较大提升,并且可以方便地修改以满足不同业务需要;缺点是具备更长的研发周期,且数据备份与迁移需要自主实现。
其他文献
互联网技术的发展一直是以人为本,用户体验是互联网产品的命脉所在,而快速便捷的服务是用户体验中最重要的因素之一。搜索引擎曾经一度让人们从海量网页中获取有效信息的繁琐中
在社会经济高速发展的今天,人类赖以生存的自然环境受到了前所未有的破坏,人们越来越认识到森林对环境保护的重要性。为了对森林生态环境更好的认识和保护,借助于现代无线传
随着计算机科学技术的飞速发展,网络在人们的生活中扮演了越来越重要的作用,各种新兴的互联网应用遍地开花,人们在享受互联网为生活带来的便利的同时,也为互联网创造了一份价值,就
手绘草图是一种自然的符合人类纸笔交互习惯的交互方式,适用于表达思想,特别是进行及时的思想捕捉。草图动画具有直观性、动态性的特点,适合于在讨论中支持用户进行想法交流,特别
随着信息化水平的不断提高和国际交流的日益频繁,世界各国对语音识别的需求急剧增长。方言口语的语音识别是国内外研究的难点问题,少数民族语言的方言语音识别研究甚少,维吾尔语
近年来,随着人民银行及地方财政部门加强对财政专用账户的管理力度,出台了大量财政账户管理细则,使得目前的财政账户管理系统很难满足于基层客户的需求。大量的基层账户仍然
随着国家将新能源汽车产业作为未来的战略性新兴产业,各大央企开始登陆抢占电动汽车市场,并迅速在各大城市部署架设电动汽车快速充换电加电站网络。加电站网络规模在不断扩大
随着科学计算在应用数量上以及规模上的快速发展,封闭于单一组织的超级计算机已经难以满足科学家们的需求。随着互联网基础设施的不断完善,跨越多组织、多管理域的多机群共享与
现如今软件系统需要不断地进行演化以适应外部环境和用户需求的频繁变化,软件演化已成为软件系统整个生命周期的重要形态之一。因此,在软件需求分析开始时就考虑支持软件演化
学位