更多核心,更强总线

来源 :微型计算机 | 被引量 : 0次 | 上传用户:lmwtzw0n9c9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  一般来说,人们都很关注处理器的核心数量,比如四核、八陔等,但是又有谁知道支撑处理器核心数量、GPU规模的“幕后精英”呢?最近ARM发布了全新的CCI-550总线,可以支持更多的处理器核心以及CPU、GPU的完全一致性。
  说起ARM,大家的第一反应多半会想到手中智能手机里的处理器。比如双核心的苹果A9、八核心的高通骁龙810以及最新拥有十核心的联发科Helio X20。在这些处理器中,人们津津乐道的往往是它们的核心数量、GPU规模,但是对另外一个决定处理器基本规格和允许规模的重要部件——总线,却没有太多了解。刚好,前段时间ARM发布了全新的CCI-550总线,为ARM未来处理器拥有更强性能,更多核心,迈向更广泛的应用空间埋好了伏笔。下面我们就来了解一下这款全新的总线。
  CoreLink,串联ARM的大小核心
  说起总线很多人会想到PC中的HT总线、DMI总线、PCI-E总线等等。顾名思义,总线就是不同设备间的连接线,它可以使一个系统的不同部分通过一种标准化的通道连接在一起,更好地实现设计所需的功能和目的。
  总线可谓是处理器中最重要的部分之一,在移动处理器上自然也不例外。目前在ARM架构的移动处理器中,广泛使用的是CoreLink CCI-400总线(下简称“CCI-400”)。令人惊讶的是,CCI-400的发布时间竟然是五年前的2010年11月11日。当时CCI-400发布的主要目的是为了充分发挥Cortex-A15和Mali-T604的性能,提高系统的吞吐能力和数据传输能力,降低传输瓶颈(虽然Cortex-A75的产品大约在三年后才正式发布)。为了达到这个目的,CCI-400设计了一个全新的可配置、无闭塞性、低延迟、低功耗的NIC-400网络,串联了处理器内部各个重要的部分,并且还加入了细链路设计,缓解内部布线拥挤。在内存方面,CCI-400搭配的DMI-400内存控制器支持DDR2、LPDDR2以及DDR3内存,可以为处理器提供充足的带宽。具体到产品来看,CCI-400总线大约从2011年开始逐渐应用到ARM架构的处理器上,从Cortex-A9到Cortex-A15,乃至目前最主流的Cortex-A53和Cortex-A57,甚至最新的Cortex-A72,者隅能看到CCI-400总线的影子。
  不过CCI-400虽然经典,但在长达五年的时间中,处理器尤其是移动处理器有了高速发展,使得CCI-400无法支持许多全新的特性。同时CCI-400在很多关键特性上的缺失还使得ARM无法进入更高端的服务器处理器市场。因此,ARM决定研发一款全新的CoreLink总线,使得ARM能够继续在未来保持领先的优势。这个全新的产品,就是接下来要介绍的CCI-550总线。
  实际上,在ARM发布CCI-550总线之前,曾于2015年2月推出了一款CCI-500总线。相较之下,CCI-550基本上继承了CCI-500的所有特性,并且加入了一些更新的关键性功能。因此,本文就不再重复CCI-500的功能,只针对CCI-550进行介绍。
  嗅探过滤器——同步数据更高效
  说起CCI-550的核心改变,怎么也绕不过全新的嗅探过滤器。在提及这部分内容之前,我们先来看看在多核心处理器之间的通讯和同步有哪些方式。
  如果一个总线上连接了4个对等的处理器内核,这就意味着4个处理器内核都有能力修改、获取存储系统中的数据。但是每个处理器又有自己的缓存和关键性数据表。当某一个处理器修改了内存中的数据时,别的处理器缓存中如果有对应的数据,那么也应该修改才能保持同步。这个时候,应该如何让別的处理器也知道某个数据已经修改了呢?
  有一种方法是这样的:让修改数据的那个处理器给出广播说明情况,通知其他处理器即可。简单来说,如果有四千人,每个人都在做“10 5 3”的算术题,但是有一个人想改成计算“10 6 8”,那么这个人需要拿着小喇叭告诉剩余的三个人——快別算“10 5 3”了,我们算“10 6 8”吧——这样其他三个人就知道了将自己的题目改成最新的即可。
  这种方式叫做广播,简单来说是当某个处理器核心每一次更改数据时,都会通过总线告诉别的处理器:“我改数据了”。然后其他处理器根据广播内容修改数据并保持同步。广播看起来实现方法很简单,但问题也不少。因为高速运行的处理器资源本身就很紧张,如果某些处理器老是不停地等待别的处理器发出的广播通知,整体效率显而易见就会降低。再说处理器不断发出广播信息修改数据,并且无差別地发给所有处理器(即使某些处理器并不需要这个通知),也会带来信息的冗余和臃肿。
  从应用角度来看,如果处理器核心数量少于4个,广播还算一种不错的解决方法,但是如果处理器核心数量高于6个甚至8个,广播效率就很低下了。现在在很多新的处理器中,核心数量都提升到了8个甚至10个,尤其是在big.LITTLE架构流行后。这样一来,广播就不怎么靠谱了。于是ARM改变了策略,在全新的CCI-550和CCI-500中改用了嗅探过滤器。
  什么是嗅探过滤器呢?简单来说,ARM为多核心处理器增加了一个“通信员”并依靠这个“通信员”传递数据、同步内容。还是上面的例子,当四个人都在计算“10 5 3”的时候,有一千人告诉位于中间的通信员,题目改成计算“10 6 8”了。于是通信员就去挨个问:题目改了,你知道吗?如果回答的是“知道”,那么通讯员就走了;如果回答的是“不知道”,那么通讯员就告诉他实际内容。这样一来,既提高了效率,又节约了能耗,还节省了总线占用,一举多得。
  根据目前的资料来看,全新的嗅探过滤器能够同时和所有缓存、核心进行通信,整体延迟更低,扩展性能更强,同时最多还能节约0.1瓦的能耗。这还不是最重要的,更重要的是它为更多核心的ARM架构处理器铺平了道路。   核心扩展——支持最多24核心
  说到多核心处理器,尤其是服务器级別的低功耗多核心处理器,一直是ARM梦寐以求的市场。服务器市场不仅利润高,关键是ARM目前的架构也很符合其需求。举例来说,随着移动计算技术的发展,很多用户在移动设备端往往只执行轻负载应用,比如邮件收发、信息推送、短消息互联互通等,这些轻负载应用在服务器端并不需要太强大的单核心性能,但是对多任务和多核心要求很高。ARM的处理器相比英特尔的“重型架构”处理器,其单核心性能不够出色,但是胜在功耗低、核心数量可以做得很多,刚好契合这一需求。因此ARM一直以来都想打入这个市场。
  但是之前的CCI-400总线最多支持2个CPU簇,每个CPU簇最多支持4个CPU核心。这样一条总线最多支持8个CPU核心,如果要使用更多的CPU核心的话,那么就得布置更多的总线,这样一来总线之间的互通又成为了问题。但是在CCI-550上,ARM允许一个总线最多支持6个CPU簇,每个CPU簇依旧是4个CPU核心,这样最多就能支持24个CPU,使得ARM的服务器梦想又前进了一步。
  此外,为了配合更多核心的产品,CCI-550最多可搭配六个DMC-500内存控制器实现对六通道内存的支持,内存寻址方面最多支持48bit,完全可以满足服务器对内存容量的需求了。内存速度最高支持LPDDR4-4267,兼容LPDDR3-2733,性能方面最高可提升27%,能够降低25%的CPU平均延迟。其他方面,CCI-550可以支持最多三个系统主界面,六个AC巨端口,基本能满足未来很长一段时间的需求了。
  完全一致性支持——支持GPU和CPU异构计算
  CPU和GPU的异构计算在很多场合都被反复提及。虽然从理论上来说,CPU更适合相关性复杂的单线程任务以及逻辑计算,GPU更适合相关性较弱的并行计算,但是如何使这两种计算模式有机并且高效率地结合在一起,一直都是业内的难题。尤其是AMD在APU上投入了这么多年的精力,目前也没有带来特別有效的商业和应用模式。不过技术终究是在发展的,在CCI-550中,ARM就为了支持异构计算,加入了对完全一致性的支持。
  所谓完全一致性,是指CPU和GPU在存储数据时,数据在内存中使用完全单一的内存地址空间,不需要额外的数据管理模块,也不需要数据的拷贝和转移。传统的CPU-GPU结构中,CPU有自己的内存,GPU有自己的显存。数据在计算时需要从CPU发包到GPU,GPU计算完成后再发回数据,效率较低。但是在全新的完全一致性模式下,CPU和GPU共享相同的内存存储空间,数据的拷贝和更改都在一个空间内进行,大大提升了效率。
  CCI-550对完全一致性的支持,使得ARM可以在HAS、Open CL 2.0等编程模型下有更好的表现,并且可以实现对应用的异构加速。不过目前ARM的Mali-T800系列GPU还不支持全部的完全一致性,现在只能支持I/O一致性。ARM预计推出的下一代代号为“Mimir”的GPU就能够支持完全一致性了,到时候用户有可能在手机上享受到HAS异构计算的加速效果。
  什么时候才能用到CCI-550?
  问题来了:什么时候用户才能享受到CCI-550带来的变化呢?据估计,CCI-550应该在2016年底配合全新的工艺在新的处理器中得到应用。具体到实际产品诸如手机、平板电脑上,可能需要等到2017年中期了——也就是说,用户还得大概等待一年半左右。从目前的情况来看,CCI-550整体技术和设计都比较先进,因此未来很长一段时间,CCI-550应该都将存在于我们的移动设备中。
其他文献
不可否认,2.0产品是各多媒体音箱厂商比拼技术实力和功底的兵家必争之地。而对于众多“爱乐”的PC用户来说,中高端2.0音箱不论是从价格还是性能而言,也是他们长期关注的焦点所在。当三诺永恒N-45G和麦博FC260十周年纪念版这两款5英寸2.0书架箱在短短一个月内先后发布时,就注定了它们必将展开一场针尖对麦芒的白刃战。    注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文
Sandy Bridge这个英特尔的划时代产品上市之后,我们首先尝鲜了其高端型号Core i7,味道不错。但即便是价格整体有所降低,Core i7机型依然是一道高贵生猛的“海鲜”,我们最在意的,仍旧是英特尔这个名厨烹饪的大众“火锅”——Core i5,够香够火辣,而且人人都爱,不是么?所以,我们组织了这次的专题测试,目标直指Core i5……
历史总是让人惦记。这也是近来历史类讲坛讲座火爆荧屏、历史类书籍火爆大小书店的原因,一时间,所谓的“戏说”、“正说”纷纷登场。有人说,“正说”难懂而且乏味,“戏说”好看却失于真实。而许倬云的《万古江河——中国历史文化的转折与发展》似乎介于“正说”与“戏说”之间,如果非要给它分类,似乎“妙说”更为恰当。
对于经常在户外听歌的用户来说, 便携式耳机一直是个不错的选择。 与普通耳塞相比, 这类产品凭借个性化的时尚设计往往更易受年轻用户的喜爱。 最近, 乐味就针对该领域推出一款轻巧、 时尚的便携式耳机TaTa。 本文为全文原貌 未安装PDF浏览器用户请先下载安装
上期我们为大家介绍了QPI 1.1总线的相关内容。 本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文
在《PC World》评出的全球50年来“最伟大的50个IT玩意”中,TiVo紧随Sony的Walkman和苹果的iPod,位列第三。在美国CNET网友票选中,TiVo是仅次于iPod的最佳消费类电子产品。2006年,美国电视届最重要的艾美奖,特地为TiVo颁发“互动电视设计杰出成就奖”。TiVo可以帮助你从被动的到时间看电视,变成主动的随心所欲掌控电视节目,非常实用,非常有趣,在美国,它早就成为
从今年年初到年中,麦博一直很低调。低调到其他品牌都在推出新品,而麦博却没有一点声音。就在6月即将过去时,雅皮土打破了这份寂静。长时间孕育而后呱呱坠地的新品也引起了我们浓厚的兴趣。 本文为全文原貌 未安装PDF浏览器用户请先下载安装
NVIDIA是AMD平台整合芯片组市场上最重要的供应商。凭借性能出色,GeForce6100 nForce410/430(即我们常说的C51)芯片组以及后来将南北桥合二为一的MCP61V/S/P(即我们常说的C61)芯片组一直是大家在AMD整台平台上的首选。
情人节即将到来,相信不少男生都会趁机向心仪的女生表白示爱,并与之共度佳节。你的情人节打算怎么度过?是简单的送上一盒巧克力,还是与另一半共进晚餐?大多数人的过节方式都比较传统,一连串的活动安排早已缺乏新意。  事实上,只要你拥有一部iPad,完全可以过得更加精彩。它不单可以为你传达情意,还能加强你们间的互动,提升默契,甚至还能为你讨到老婆!不信?咱们就一起看看《微型计算机》特别策划的情人节专题吧。
基于非常规平台的产品日渐丰富    非常规平台自然是相对常规平台而言的,对于台式电脑来说,凡是基于非传统台式电脑平台的产品都是非常规平台产品。例如一直以来在一体电脑和迷你电脑上广泛运用的MoDT(Mobile on Desk Top),以及近期比较常见的Atom、Yukon、翼扬等等。    1 全面扩散的Atom    席卷超便携电脑领域的Atom平台正在被越来越多的运用到一体电脑和迷你电脑当中