优酷引入Spark深化大数据处理

来源 :计算机世界 | 被引量 : 0次 | 上传用户:houhx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  在2013年艾美奖颁奖典礼上,Netflix的首部原创剧集《纸牌屋》获得了9项大奖的提名,并最终斩获最佳导演和最佳选角两项大奖。据说 Netflix 推出该剧前对用户的数据进行了大量的分析,从而将用户所喜欢的多个关键要素融入到了剧情中。
  《纸牌屋》的成功背后,大数据到底起到了多大的作用,可能很难用具体的数字来确认。但是可以肯定的是,当前视频网站的发展,已经离不开大数据技术的推动,视频网站自身已经成为这股大潮中的弄潮儿。
  优酷土豆集团(下称优酷)专注于视频领域,是中国网络视频行业领军企业之一。相关人士向记者表示,优酷从2009年就开始采用Hadoop大数据平台,最初只是10多个节点的规模,2013年整个集群节点达到了300个,每天处理数据量达到200TB。
  优酷首席技术官姚健曾经表示,对优酷而言,通过用户的每次播放流程,优酷的后台系统都会对页面浏览、评论收藏、视频播放以及播放时的各种操作进行记录。经处理后的分析结果会反馈给内部不同的业务模块,对优酷在产品、内容运营、用户的个性化推荐及广告投放等方面的提升,都起到了关键作用。
  “对优酷来说,从网站页面设计、内容推荐到广告投放,都离不开大数据技术的支持。”优酷土豆集团大数据团队技术总监卢学裕表示,优酷通过对各种数据进行分析处理后,不但能够为广告主呈现出用户行为特征,提供广告投放价值的分析,而且在用户体验优化方面都有很大的帮助。
  优酷大数据团队大数据平台架构师傅杰告诉记者,一直以来,优酷都在使用MapReduce和Hive来处理大数据,特别是一些视频推荐挖掘的数据都是通过MapReduce来处理。在这个过程中,优酷发现有一些场景其实并不适合MapReduce,处理效率不尽如人意。
  “随着优酷业务发展的不断壮大,分析的数据量也自然就越来越大。之前使用Hadoop处理一些诸如机器学习、图计算等迭代式计算问题时,处理速度成为了瓶颈。内部的分析人员提交任务后要等上很长时间才能得到结果,等待时间之长已经有些令人不能忍受。”卢学裕说,“最终,在英特尔公司的帮助下,优酷将Spark引入到了自身的大数据计算框架中,作为整个Hadoop集群的补充。其效果还是相当令人满意的,以图计算为例,相同的数据量,在以往的平台上需要80多分钟,在4节点的Spark集群上,用时只需要5分钟左右。”
  Spark是一个通用的并行计算框架,由伯克利大学的AMP实验室开发,已经成为继Hadoop之后又一大热门开源项目。作为一种与 Hadoop 相似的开源集群计算环境,由于启用了内存分布数据集,Spark 在某些工作负载方面表现得更加优越,除了能够提供交互式查询外,它还可以优化迭代工作负载。
  据悉,英特尔公司从2012年中旬开始向Spark开源社区贡献,目前已经与优酷等互联网公司进行了相关的合作。英特尔(中国)有限公司销售市场部互联网及媒体行业企业客户经理李志辉表示:“未来英特尔还会持续跟优酷合作,一旦整个集群达到一定规模,英特尔还会投入相应专家来帮助优酷做一些硬件配置上的优化,包括系统的一些优化工作。最终的目标,就是将英特尔的整体解决方案和优酷这样的用户的业务相结合。”
其他文献
电子邮件是使用最为广泛的互联网产品之一,是人们日常工作和生活的交流工具,发挥越来越重要的作用。与此同时,垃圾邮件的出现破坏了和谐的网络文明,浪费互联网资源和网民的时间,引起社会各界的高度关注。  为了把握中国垃圾邮件的现状,了解用户对垃圾邮件的行为态度及对电子邮箱反垃圾功能的满意度,从而探究垃圾邮件的治理对策,为政府及相关部门治理垃圾邮件提供参考;中国互联网协会组织,中国互联网协会反垃圾信息工作委
从去年8月IBM拉着Google等4家厂商成立OpenPOWER联盟,到4月底拥有25家会员,不能不说IBM Power平台的号召力和技术魅力依然是顶级的。  红色Google Power8  主板悄然亮相  4月28日,更是Power平台的里程碑式日子。就在这一天,Google平台事业部技术总监Gordon MacKean先生在Google 上写道:今天,我兴奋地向大家展示Google Powe
为积极响应工业和信息化部“扶助小微企业专项行动”,进一步推动实施中小企业信息化推进工程, 9月17日,由工业和信息化部中小企业司、北京市经济和信息化委员会指导,中国中小企业信息网、中国联合网络通信集团有限公司主办的以“扶助小微企业,促进转型成长”为主题的2013“创新中国行”中小企业信息化培训首场活动在北京举办。工业和信息化部中小企业司司长郑昕、北京市经济和信息化委员会副主任姜贵平出席活动并致辞,
日前,一场关于工程软件设计的研讨会在上海举行。本次活动由ECIDI/Bentley中国工程软件中心牵头主办,众多来自各个工程设计与建设单位的信息中心、数字工程中心负责人参加了本次论坛,而话题自然离不开三维设计,特别是如何推进工程设计与建设单位从二维设计顺利过渡到三维设计,促进中国工程设计数字化的发展,更是引起来嘉宾们的热议。  近年来,三维设计在各个工程设计单位已经逐步普及开来,但是三维设计的推广
2012年12月27日,全国工业和信息化工作会议在北京召开。会议的主要任务是,深入学习贯彻党的十八大精神,认真落实中央经济工作会议部署,总结2012年和近五年的工作,分析把握新形势新要求,部署2013年任务,动员全系统干部职工提高认识,统一思想,振奋精神,狠抓落实,加快转型升级步伐,努力实现工业通信业持续健康发展,为经济发展和社会稳定做出新的贡献。工业和信息化部部长苗圩就全面落实党的十八大精神,努
2014年是中国内地市场智能电视风起云涌的一年,以此为代表的客厅经济在2015年进入爆发元年,我们拭目以待以电商为代表的非传统影视业玩家将怎样参与客厅经济新高潮。  终端市场趋于饱和,产品结构调整在所难免  据奥维咨询数据显示,2014年FPD(平板液晶)电视保有量达到2.9亿台,CRT(传统电视)保有量达到3.3亿台。如果,我们按照现有4.2亿家庭来推算。每户拥有1.35台电视。并且,现有社会结
内容来源:网贷之家、盈灿咨询  2015年12月1日,网贷之家联合盈灿咨询发布了《中国P2P网贷行业2015年11月月报》,该报告有如下几大发现:  问题平台数量环比增加  2015年11月底,正常运营平台为2612家,环比上涨3.65%,增长速度创了近期的新低。其中,新上线平台数量为171家,新增问题平台79家。截至2015年11月底,累计问题平台达到1157家,P2P网贷行业累计平台数量达到3
伴随云计算的日渐成熟,越来越多的企业开始借助云技术来简化IT管理、降低企业的运营成本,国京证券便是证券行业的一个典型代表。据国京证券CEO李泉介绍,从2012年11月起,国京证券就开始携手中国移动,在中国移动的移动云平台逐步部署其业务系统,以提高市场响应速度和核心竞争力。  当然,选择云平台搭建业务系统并不是李泉最初的意向。在项目之初,国京证券计划购买相关设备自建业务系统平台,但通过与中国移动移动
华为宣布将投入10亿美元,实施“沃土开发者使能计划”,构建面向开发者伙伴的开发使能平台和联合创新。  在IT产业链中,开发者是一个关键环节,特别是对一些通用性和平台类的产品,离开了开发者的二次开发几乎寸步难行,因此IT厂商无不重视这一体系建设。然而,打造自己的开发者队伍是一个投资巨大且长期的过程。即便如此,对于一直专注在硬件、专注在管道、致力于平台化的华为而言,要完成自己的产业链布局,培养自己的开
创业领域,C端略胜一筹。电子商务和企业服务是整体上目前创业公司最为集中的两个热点领域。电子商务作为互联网创业的天然起步领域,历年来一直稳居第一。企业服务作为创业的第二大领域,在2013年新创公司数量达到高点,B端的“产业互联网”成为C端的“消费互联网”后的创新方向。  2014年是创业行业格局大变革的一年,《“移动互联网 ”中国双创生态研究报告》显示,企业服务、游戏动漫等传统创业热门领域增速放缓,