论文部分内容阅读
Sun公司最近推出的8核64线程UltraSPARC T2处理器的强大功能和优异性能几乎尽人皆知,但很多人不知道,在去年的Hot Chips会议上,Sun就详细介绍了代号为Niagara-2的UltraSPARC T2产品开发计划。那么,今年8月20日和21日的第19届Hot Chips会议上又有什么芯片新技术呢?我们将从图形处理器、服务器处理器、移动处理器和网络处理器等几个方面,为您展示各大厂商的最新研究成果。
服务器处理器:性能飞跃
IBM POWER 6是目前世界上最快的微处理器,会上,IBM介绍了相关的3项新技术:容错设计、系统性能扩展性和第三代弹性接口。另外,IBM公司还描述了下一代大型计算机处理器Z6的特性,Sun也展示了开发代码为Victoria Falls的下一代服务器处理器技术。
IBM今年5月刚推出的双核POWER 6处理器采用65nm工艺技术,包含7.9亿个晶体管,主频为4.7GHz,是POWER 5处理器的2倍,但运行和散热所消耗的电能基本相同。每个POWER 6微处理器单元(MPU)是由2路单芯片多处理器(CMP)设计实现的,340平方毫米的一块芯片上集成了两个同步多线程处理器,每个内核都有专用的二级高速缓存。POWER 6的三级缓存为32MB,可支持16条通路。
IBM十分重视可靠性、可用性及可服务性(RAS,Reliability, Availability and Serviceability)。POWER 6使用检验点系统进行容错处理,并进行校正。处理器状态保存在恢复部件里,并且采用错误校正编码法(ECC)进行保护。例如,寄存器或高速缓存写入等会引起状态变化的操作,都会检验奇偶性,并采用错误校正编码法处理故障。如果是可校正的错误,变化通常传送到处理器状态寄存器里。不可校正的错误,如阵列奇偶性或控制故障,就会触发记录器,记录错误类型,然后从已知的正确状态重新开始执行。任何临时错误都会得到正确解决。反复出现的错误会上报,然后已知的正确状态传送给另一个CPU,随后由该CPU开始执行。
RAS芯片能够在系统内部执行高级别的冗余和错误检查机制。一旦检测到某个CPU发生错误,系统将记录该CPU状态,并激活一个空闲的CPU,继续原CPU状态。RAS芯片不仅拥有POWER 5中的所有功能,还可以记录CPU芯片每一个周期的情况。如果发现状态有错误,这个芯片会进行自我校验,如果多次校验仍发现错误,才会把认为错误的CPU离线。这样就很大程度上避免了因为过分强调可靠性而导致的性能损失。POWER 6可以提供非常高的运行频率和较低的电源消耗,灵活的可升级内存系统及同大型机一样的可靠性、可用性和可服务性。
POWER 6为处理器提供了极高的带宽。在5GHz下,每个MPU都能达到300Gbps的带宽,其中大约80Gb/s来自三级高速缓存、80Gb/s来自MCM内总线、75Gb/s来自内存、50Gb/s来自远程处理器、20Gb/s来自本地I/O。
IBM Z6是一款4核处理器,可以说它是POWER 6的同胞兄弟。尽管两者运行的环境不同,但是Z6大部分设计都与POWER 6一致。为了突出z/Architecture的特色,Z6也运用了一些新的设计技术,比如894指令集。该指令集包含一些十进制算法,以保证运算过程的准确性。
Sun公司要开发的新一代服务器处理器开发代号为Victoria Falls,其芯片面积和能源消耗与目前的UltraSPARC T2处理器相近。目前的UltraSPARC T2服务器处理器提供了8个处理器内核,每个内核可以执行8个线程。
Victoria Falls的SPARC服务器芯片将配置两个内置式一致性集线器模块,能够以65Gb/s的速率进行数据传输。4路版本的Victoria Falls服务器芯片的内置式一致性集线器模块为4个,数据的传输速度也增加了一倍。采用这种模块能够解决内存控制问题,通过MCH提供外部数据存储的路由。预计使用Victoria Falls处理器的服务器将于2008年问世。
图形处理器:多核并行
AMD公司CTO Phil Hester在他的主题演讲中表示,以单个CPU为中心的传统PC模型将会过时,CPU需要集成图形芯片和其他外围设备。
此前不久的Siggraph 2007上,NVIDIA和AMD分别展出了新型显卡GeForce 8800和ATI Radeon HD 2900,使人们对多核并行的图形处理器有了感性认识。在此次会议上,它们又对其中涉及的技术做了介绍。
NVIDIA GeForce 8800 GPU拥有128个处理器内核,每个芯片的浮点运算速率可以达到每秒5760亿次,运行3D游戏和大型绘图软件时功耗为150W。不仅支持Microsoft DirectX 10 Shader Model 4.0,还拥有NVIDIA SLI多重GPU及PureVideo HD等先进技术,搭配超大容量超高速GDDR3内存,以及高带宽数字内容保护(High Bandwidth Digital Content Protection,HDCP)规格。与传统多核处理器不同,NVIDIA GeForce 8800 GPU的多核经常同时进行一项工作。GeForce 8800就是这样设计的,8核组同时工作于一个程序。
NVIDIA在会上介绍了GPU的并行计算体系结构和CUDA编程模型。CUDA(Compute Unified Device Architecture)的意思是通用计算架构。GeForce 8800已经应用了此项技术。CUDA是一项新的基础计算体系,它不但支持图形芯片模拟物理计算,而且增加了GPU的首个C编译开发环境。CUDA提供了一个基于C语言的底层函数库,可以直接使用一些D3D或OpenGL不包含的特性,让GPU的芯片内核同步协调地进行通用计算,大大提高了运算速度。因为增加了C语言编译开发环境,所以在处理产品设计、数据分析、技术处理、游戏物理应用等复杂计算方面游刃有余。
通过使用CUDA,程序员可以编写一个适用于所有型号的GPU的程序。NVIDIA根据内核数目来区别GeForce 8000系列。应用程序甚至都不知道使用了多少个处理器。CUDA打破了传统GPU处理数据方式的局限性,让GPU的内核能联合、同步地共享数据。
NVIDIA的GPU不仅在绘图方面表现极佳,而且对非绘图性软件也提供了有力的支持。会议上举例分析了3个代表性的应用程序:MRI(Magnetic Resonance Imaging,磁共振成像)图像再现、Fluid dynamics流体动力学和H.264视频编码。
尽管这3个应用程序在一定程度上是可并行处理的,但是它们对GeForce 8800的要求各不相同。在MRI图像再现方面,8800是Athlon 64 2800 的416倍,不过Athlon 64 2800 是2004年的產品。流体动力学编码采用了SPEC CPU2006 LBM基准,GPU是CPU的12倍。在H.264视频编码方面,GPU是CPU的20倍,但是这个运算法则对于GPU来说还不是最优化的。
NVIDIA GeForce 8800 GPU充分展示了基于Windows Vista和DirectX 10的下一代游戏和应用程序的视觉效果,NVIDIA为DirectX 10提供了世界一流的支持。如果再搭配上顶级游戏产品,将会使Windows系统下的游戏面貌焕然一新。
AMD的ATI Radeon HD 2900拥有320个内核,运行频率为742 MHz,每秒4750亿次浮点运算,虽然少于NVIDIA GeForce 8800的5760亿次,但是实际应用中两者区别并不明显,每个GPU都有不俗的表现。
AMD和NVIDIA产品的另一个区别在于显存位宽。NVIDIA为384位,而AMD达到了512位。这意味着AMD可能需要增加33%的针脚和内存。
与NVIDIA的8内核组都能够同时工作于一个程序不同,AMD采用了另一种方法:联合5内核组在每个时钟周期运行一个预先确定的5个指令集。这样做有利于64组内核独立执行不同的任务。
移动处理器:日新月异
随着移动设备的普及,相应的移动处理器也迅速发展,并不断涌现出新技术。在此次大会上,Intel和AMD就分别介绍了即将推出的两款新产品。
Intel公司即将推出的是采用45nm工艺,基于Core架构,可用于台式机、笔记本电脑以及服务器的下一代Penryn芯片。Penryn芯片引入了SSE4指令集,支持1333MHz FSB(前端系统总线),频率突破3GHz。而在二级缓存方面,双核Penryn的二级缓存容量将会进一步提升到6MB,而四核Penryn处理器的二级缓存容量则将会达到惊人的12MB。在相同频率下,Penryn比Croe至少有5%~10%的性能提升。
由于整合了新的SSE4指令集,Penryn将在游戏、视频解码、3D图片、Web服务等性能上有一定的提高。Penryn能进行视频方面的优化,为Clear Video高清视频技术及UDI接口规范提供强有力的支持。目前规划中的45nm工艺处理器大概有15款,包括具备新版超线程技术的双核Wolfdale、四核Bloomfield和原生四核Yorkfield等等。
与目前的处理器相比,基于45nm的Penryn具有超乎以往的计算性能,能够大幅提高笔记本这样移动设备的计算性能,而且移动版Penryn处理器还配备了更先进的电源管理技术。不久以后,体积小巧的笔记本电脑也可以进行大规模的复杂数据计算。
AMD公司也将推出新一代移动CPU—Griffin。Griffin采用65nm工艺,与Turion64一样,Griffin集成了两个物理内核以及DDR2内存控制器,支持独有的HyperTransport 3总线技术,并且二级缓存达到2MB,功耗大概在35W左右。
HyperTransport 3总线技术拥有下面几个优点,例如:频率更高、资源支配更自由、支持HTX接口、支持热插拔。在电源动态管理的支持下,允许操作系统对HyperTransport总线的工作频率和位宽做出动态调整,在满足性能需求的前提下减少功耗。
Griffin处理器采用了与服务器级Barcelona相同的内核,而且针对移动应用进行了专门优化。考虑到移动处理器并不需要随时随地的全速运行浮点运算单元,Griffin可以完全关闭其中一个内核,以达到最大的续航效果。CPU的两个内核与北桥芯片的电压将独立控制,而且1/8负载到满负载运行之间,每个内核有9个阶段的降频,能够在性能与能耗上获得一个完美的平衡点。不仅如此,Griffin还将对C4级深度睡眠提供良好的支持。这款双核处理器预计将会在2008年上市。
网络处理器:灵活强大
网络处理器凭借灵活的体系结构和强大的处理能力,将可编程能力和ASIC的处理能力有机地结合在一起。目前各大厂商均推出了10Gb/s~20Gb/s的网络处理器,40Gb/s的网络处理器正在逐步推向市场。
Bay Microsystem公司在会议上展示了Chesapeake网络处理器芯片,该芯片数据交换速度为50Gb/s。网络处理器是NPU一种可编程硬件设备,结合了RISC处理器的低成本和高灵活性以及ASIC硬件的高速度和高可扩展性。网络处理器专门用于网络,拥有固定的客户界面、可编程内核以及其他网络特性。
Xelerated公司生产的可编程网络处理器X10q,目前有3种型号,在接口、速度及功耗方面各不相同。X10q采用数据流方法,大概有200个处理器。当数据包沿着流水线移动时,每一个处理器都对数据包执行一个或几个操作。为保持高速运行,每个处理器最多只能用4条指令处理每一个数据包,这就意味着4条指令不会浪费在装载、保存或I/O操作上。X10q的设计获得了一年一度的Best Extreme Processor大奖。
最近Xelerated公司推出了X10q的下一代X11。X11仍采用数据流管线技术,管线比X10q更加紧凑简单;增加了24块FE/GE MAC,降低了50%的成本,可支持20Gb/s双向以太网或10Gb/s双向SONET应用。
Intel计划于今年年底之前推出一款完全整合了南北桥功能的处理器Tolapai。Tolapai处理器基于Pentium M处理器,内建256KB L2缓存,时钟频率为600MHz、1.06GHz和1.2GHz,支持DDR2内存接口,数据率为400~800MHz,拥有完善的I/O功能,内建3组GigABIT Ethernet网络功能(RGMII或RMII),最高片外内存可达2GB。该处理器可运行所有32位操作系统,功耗估计为13~25W。该处理器主要面向嵌入式计算机及工业计算机市场。
在无线网络方面,随着标准的推进,各种无线网络处理器也呼之欲出。
802.11n WiFi产品借助MIMO-OFDM(多入多出-正交频分复用)技术,传输速度预计明年可以达到600Mbps,为传送多媒体流提供了必要的范围、速度和可靠性,并最终实现全面的家庭无线媒体分发功能。目前,最新电力线标准HomePlug AV传输速度已经达到了200Mb/s。
MIMO-OFDM技术能够在空间中产生独立且并行的信道,同时传输多路数据流,在不增加系统带宽的情况下增加频谱效率,有效提高了系统的传输速率。MIMO-OFDM技术通过在OFDM传输系统中采用阵列天线实现空间分集,提高了信号质量,并增加了多径的容限,使无线网络的有效传输速率实现质的提升。而且802.11n对802.11标准的单一MAC层协议进行了优化,改变了数据帧结构,增加了净负载比重,减少管理检错所占的字节数,从而大大提升了网络的吞吐量。
美国SiBEAM公司推出的60GHz频带毫米波通信芯片组,以无线方式实现目前由HDMI承担的HDTV非压缩传输,传输速度为4Gbps。该传输系统可提供7GHz的RF带宽,有效功率达到8W。芯片组内部集成了36个元件的微小天线阵列、约20mm见方的RF收发器模块以及数字基带/MAC处理LSI。
SiBeam利用的信号带宽为2.5GHz,有效距离大约为10m,另外还具备一个传输速度为40Mbps的数字反向通道,保证了视频接收者能够与发送者的视频交流。这项技术将有助于真正实现家庭娱乐系统,电视、HD DVD、摄影机等之间互相通信将不再需要视频电缆或声频电缆。目前,芯片组的上市时间还未确定,预计2008年初在美国拉斯维加斯举办的消费电子展(CES)上会对其进行演示。
链 接:芯片技术前瞻
Sun公司的电脑芯片连接新技术——Proximity
Hot Chips不仅介绍近期推出的和即将推出的各种产品,而且还有很多前瞻性的技术,预示着未来几年甚至几十年内能够推动芯片发展的新趋势。
Sun公司计划将在未来4年里推出一种新的电脑芯片连接技术——Proximity技术。这项新的技术将跳过现有设计里连接芯片的连线,使芯片之间直接通信,无需电路板、电线或Pin接口。由于芯片之间数据传输速度以及传输通道的提升,机器的整体性能会逐步提高,能耗则会下降。
在过去20年中,尽管处理器的性能不断得到提升,但输入输出接口却逐渐成为性能瓶颈。以前,芯片封装以后只能通过金属针(Pin)与电路板相连,但由于这些针脚尺寸太大,限制了接口空间,导致带宽受到严重限制。Sun表示,使用这种连接方法能够大大增加芯片之间的通信带宽,达到每平方毫米10Tb,是普通芯片连接方式的10倍。由于通信带宽的增加,Proximity技术还可以省去了芯片的缓存部分,从而降低了制造成本。
IBM的Shahidi预言,8年后11nm级制造工艺将出现,但是就目前的技术水平而言还不现实。另外,Intel的Mayberry表示,不久前已经放弃了简单的CMOS缩放技术,取而代之的是使用一个新型装置进行缩放。这种新型缩放技术将能持续更久的时间。UC Berkeley大学的Kubiatowicz一直在研究量子计算机。Kubiatowicz表示量子計算机的原理是以离子阱为基础的,与微处理器的复杂关系有密切关系。量子计算机中的基本单元是量子比特。由于独特性质,量子比特不仅可以取0或1,还可以同时读取0和1。最后,斯坦福大学的Horowitz教授讲到CMOS技术最终会被取代,但是目前还没有技术可以代替,未来设计师将开发出尺寸更小的工艺技术。
惠普实验室的Norm Jouppi讲述了40年来IC制造的发展历程。IC形体尺寸为最初的1%,计算能力提高了10000倍,运行频率提高了100倍。过去的40年我们一追求在芯片上获得更多的晶体管,接下来的40年应注重电路的每个部分。光子学和纳米技术将应用于改进CMOS。光子开关比硅晶体管更有优势,因为它们能够达到更高的带宽。
服务器处理器:性能飞跃
IBM POWER 6是目前世界上最快的微处理器,会上,IBM介绍了相关的3项新技术:容错设计、系统性能扩展性和第三代弹性接口。另外,IBM公司还描述了下一代大型计算机处理器Z6的特性,Sun也展示了开发代码为Victoria Falls的下一代服务器处理器技术。
IBM今年5月刚推出的双核POWER 6处理器采用65nm工艺技术,包含7.9亿个晶体管,主频为4.7GHz,是POWER 5处理器的2倍,但运行和散热所消耗的电能基本相同。每个POWER 6微处理器单元(MPU)是由2路单芯片多处理器(CMP)设计实现的,340平方毫米的一块芯片上集成了两个同步多线程处理器,每个内核都有专用的二级高速缓存。POWER 6的三级缓存为32MB,可支持16条通路。
IBM十分重视可靠性、可用性及可服务性(RAS,Reliability, Availability and Serviceability)。POWER 6使用检验点系统进行容错处理,并进行校正。处理器状态保存在恢复部件里,并且采用错误校正编码法(ECC)进行保护。例如,寄存器或高速缓存写入等会引起状态变化的操作,都会检验奇偶性,并采用错误校正编码法处理故障。如果是可校正的错误,变化通常传送到处理器状态寄存器里。不可校正的错误,如阵列奇偶性或控制故障,就会触发记录器,记录错误类型,然后从已知的正确状态重新开始执行。任何临时错误都会得到正确解决。反复出现的错误会上报,然后已知的正确状态传送给另一个CPU,随后由该CPU开始执行。
RAS芯片能够在系统内部执行高级别的冗余和错误检查机制。一旦检测到某个CPU发生错误,系统将记录该CPU状态,并激活一个空闲的CPU,继续原CPU状态。RAS芯片不仅拥有POWER 5中的所有功能,还可以记录CPU芯片每一个周期的情况。如果发现状态有错误,这个芯片会进行自我校验,如果多次校验仍发现错误,才会把认为错误的CPU离线。这样就很大程度上避免了因为过分强调可靠性而导致的性能损失。POWER 6可以提供非常高的运行频率和较低的电源消耗,灵活的可升级内存系统及同大型机一样的可靠性、可用性和可服务性。
POWER 6为处理器提供了极高的带宽。在5GHz下,每个MPU都能达到300Gbps的带宽,其中大约80Gb/s来自三级高速缓存、80Gb/s来自MCM内总线、75Gb/s来自内存、50Gb/s来自远程处理器、20Gb/s来自本地I/O。
IBM Z6是一款4核处理器,可以说它是POWER 6的同胞兄弟。尽管两者运行的环境不同,但是Z6大部分设计都与POWER 6一致。为了突出z/Architecture的特色,Z6也运用了一些新的设计技术,比如894指令集。该指令集包含一些十进制算法,以保证运算过程的准确性。
Sun公司要开发的新一代服务器处理器开发代号为Victoria Falls,其芯片面积和能源消耗与目前的UltraSPARC T2处理器相近。目前的UltraSPARC T2服务器处理器提供了8个处理器内核,每个内核可以执行8个线程。
Victoria Falls的SPARC服务器芯片将配置两个内置式一致性集线器模块,能够以65Gb/s的速率进行数据传输。4路版本的Victoria Falls服务器芯片的内置式一致性集线器模块为4个,数据的传输速度也增加了一倍。采用这种模块能够解决内存控制问题,通过MCH提供外部数据存储的路由。预计使用Victoria Falls处理器的服务器将于2008年问世。
图形处理器:多核并行
AMD公司CTO Phil Hester在他的主题演讲中表示,以单个CPU为中心的传统PC模型将会过时,CPU需要集成图形芯片和其他外围设备。
此前不久的Siggraph 2007上,NVIDIA和AMD分别展出了新型显卡GeForce 8800和ATI Radeon HD 2900,使人们对多核并行的图形处理器有了感性认识。在此次会议上,它们又对其中涉及的技术做了介绍。
NVIDIA GeForce 8800 GPU拥有128个处理器内核,每个芯片的浮点运算速率可以达到每秒5760亿次,运行3D游戏和大型绘图软件时功耗为150W。不仅支持Microsoft DirectX 10 Shader Model 4.0,还拥有NVIDIA SLI多重GPU及PureVideo HD等先进技术,搭配超大容量超高速GDDR3内存,以及高带宽数字内容保护(High Bandwidth Digital Content Protection,HDCP)规格。与传统多核处理器不同,NVIDIA GeForce 8800 GPU的多核经常同时进行一项工作。GeForce 8800就是这样设计的,8核组同时工作于一个程序。
NVIDIA在会上介绍了GPU的并行计算体系结构和CUDA编程模型。CUDA(Compute Unified Device Architecture)的意思是通用计算架构。GeForce 8800已经应用了此项技术。CUDA是一项新的基础计算体系,它不但支持图形芯片模拟物理计算,而且增加了GPU的首个C编译开发环境。CUDA提供了一个基于C语言的底层函数库,可以直接使用一些D3D或OpenGL不包含的特性,让GPU的芯片内核同步协调地进行通用计算,大大提高了运算速度。因为增加了C语言编译开发环境,所以在处理产品设计、数据分析、技术处理、游戏物理应用等复杂计算方面游刃有余。
通过使用CUDA,程序员可以编写一个适用于所有型号的GPU的程序。NVIDIA根据内核数目来区别GeForce 8000系列。应用程序甚至都不知道使用了多少个处理器。CUDA打破了传统GPU处理数据方式的局限性,让GPU的内核能联合、同步地共享数据。
NVIDIA的GPU不仅在绘图方面表现极佳,而且对非绘图性软件也提供了有力的支持。会议上举例分析了3个代表性的应用程序:MRI(Magnetic Resonance Imaging,磁共振成像)图像再现、Fluid dynamics流体动力学和H.264视频编码。
尽管这3个应用程序在一定程度上是可并行处理的,但是它们对GeForce 8800的要求各不相同。在MRI图像再现方面,8800是Athlon 64 2800 的416倍,不过Athlon 64 2800 是2004年的產品。流体动力学编码采用了SPEC CPU2006 LBM基准,GPU是CPU的12倍。在H.264视频编码方面,GPU是CPU的20倍,但是这个运算法则对于GPU来说还不是最优化的。
NVIDIA GeForce 8800 GPU充分展示了基于Windows Vista和DirectX 10的下一代游戏和应用程序的视觉效果,NVIDIA为DirectX 10提供了世界一流的支持。如果再搭配上顶级游戏产品,将会使Windows系统下的游戏面貌焕然一新。
AMD的ATI Radeon HD 2900拥有320个内核,运行频率为742 MHz,每秒4750亿次浮点运算,虽然少于NVIDIA GeForce 8800的5760亿次,但是实际应用中两者区别并不明显,每个GPU都有不俗的表现。
AMD和NVIDIA产品的另一个区别在于显存位宽。NVIDIA为384位,而AMD达到了512位。这意味着AMD可能需要增加33%的针脚和内存。
与NVIDIA的8内核组都能够同时工作于一个程序不同,AMD采用了另一种方法:联合5内核组在每个时钟周期运行一个预先确定的5个指令集。这样做有利于64组内核独立执行不同的任务。
移动处理器:日新月异
随着移动设备的普及,相应的移动处理器也迅速发展,并不断涌现出新技术。在此次大会上,Intel和AMD就分别介绍了即将推出的两款新产品。
Intel公司即将推出的是采用45nm工艺,基于Core架构,可用于台式机、笔记本电脑以及服务器的下一代Penryn芯片。Penryn芯片引入了SSE4指令集,支持1333MHz FSB(前端系统总线),频率突破3GHz。而在二级缓存方面,双核Penryn的二级缓存容量将会进一步提升到6MB,而四核Penryn处理器的二级缓存容量则将会达到惊人的12MB。在相同频率下,Penryn比Croe至少有5%~10%的性能提升。
由于整合了新的SSE4指令集,Penryn将在游戏、视频解码、3D图片、Web服务等性能上有一定的提高。Penryn能进行视频方面的优化,为Clear Video高清视频技术及UDI接口规范提供强有力的支持。目前规划中的45nm工艺处理器大概有15款,包括具备新版超线程技术的双核Wolfdale、四核Bloomfield和原生四核Yorkfield等等。
与目前的处理器相比,基于45nm的Penryn具有超乎以往的计算性能,能够大幅提高笔记本这样移动设备的计算性能,而且移动版Penryn处理器还配备了更先进的电源管理技术。不久以后,体积小巧的笔记本电脑也可以进行大规模的复杂数据计算。
AMD公司也将推出新一代移动CPU—Griffin。Griffin采用65nm工艺,与Turion64一样,Griffin集成了两个物理内核以及DDR2内存控制器,支持独有的HyperTransport 3总线技术,并且二级缓存达到2MB,功耗大概在35W左右。
HyperTransport 3总线技术拥有下面几个优点,例如:频率更高、资源支配更自由、支持HTX接口、支持热插拔。在电源动态管理的支持下,允许操作系统对HyperTransport总线的工作频率和位宽做出动态调整,在满足性能需求的前提下减少功耗。
Griffin处理器采用了与服务器级Barcelona相同的内核,而且针对移动应用进行了专门优化。考虑到移动处理器并不需要随时随地的全速运行浮点运算单元,Griffin可以完全关闭其中一个内核,以达到最大的续航效果。CPU的两个内核与北桥芯片的电压将独立控制,而且1/8负载到满负载运行之间,每个内核有9个阶段的降频,能够在性能与能耗上获得一个完美的平衡点。不仅如此,Griffin还将对C4级深度睡眠提供良好的支持。这款双核处理器预计将会在2008年上市。
网络处理器:灵活强大
网络处理器凭借灵活的体系结构和强大的处理能力,将可编程能力和ASIC的处理能力有机地结合在一起。目前各大厂商均推出了10Gb/s~20Gb/s的网络处理器,40Gb/s的网络处理器正在逐步推向市场。
Bay Microsystem公司在会议上展示了Chesapeake网络处理器芯片,该芯片数据交换速度为50Gb/s。网络处理器是NPU一种可编程硬件设备,结合了RISC处理器的低成本和高灵活性以及ASIC硬件的高速度和高可扩展性。网络处理器专门用于网络,拥有固定的客户界面、可编程内核以及其他网络特性。
Xelerated公司生产的可编程网络处理器X10q,目前有3种型号,在接口、速度及功耗方面各不相同。X10q采用数据流方法,大概有200个处理器。当数据包沿着流水线移动时,每一个处理器都对数据包执行一个或几个操作。为保持高速运行,每个处理器最多只能用4条指令处理每一个数据包,这就意味着4条指令不会浪费在装载、保存或I/O操作上。X10q的设计获得了一年一度的Best Extreme Processor大奖。
最近Xelerated公司推出了X10q的下一代X11。X11仍采用数据流管线技术,管线比X10q更加紧凑简单;增加了24块FE/GE MAC,降低了50%的成本,可支持20Gb/s双向以太网或10Gb/s双向SONET应用。
Intel计划于今年年底之前推出一款完全整合了南北桥功能的处理器Tolapai。Tolapai处理器基于Pentium M处理器,内建256KB L2缓存,时钟频率为600MHz、1.06GHz和1.2GHz,支持DDR2内存接口,数据率为400~800MHz,拥有完善的I/O功能,内建3组GigABIT Ethernet网络功能(RGMII或RMII),最高片外内存可达2GB。该处理器可运行所有32位操作系统,功耗估计为13~25W。该处理器主要面向嵌入式计算机及工业计算机市场。
在无线网络方面,随着标准的推进,各种无线网络处理器也呼之欲出。
802.11n WiFi产品借助MIMO-OFDM(多入多出-正交频分复用)技术,传输速度预计明年可以达到600Mbps,为传送多媒体流提供了必要的范围、速度和可靠性,并最终实现全面的家庭无线媒体分发功能。目前,最新电力线标准HomePlug AV传输速度已经达到了200Mb/s。
MIMO-OFDM技术能够在空间中产生独立且并行的信道,同时传输多路数据流,在不增加系统带宽的情况下增加频谱效率,有效提高了系统的传输速率。MIMO-OFDM技术通过在OFDM传输系统中采用阵列天线实现空间分集,提高了信号质量,并增加了多径的容限,使无线网络的有效传输速率实现质的提升。而且802.11n对802.11标准的单一MAC层协议进行了优化,改变了数据帧结构,增加了净负载比重,减少管理检错所占的字节数,从而大大提升了网络的吞吐量。
美国SiBEAM公司推出的60GHz频带毫米波通信芯片组,以无线方式实现目前由HDMI承担的HDTV非压缩传输,传输速度为4Gbps。该传输系统可提供7GHz的RF带宽,有效功率达到8W。芯片组内部集成了36个元件的微小天线阵列、约20mm见方的RF收发器模块以及数字基带/MAC处理LSI。
SiBeam利用的信号带宽为2.5GHz,有效距离大约为10m,另外还具备一个传输速度为40Mbps的数字反向通道,保证了视频接收者能够与发送者的视频交流。这项技术将有助于真正实现家庭娱乐系统,电视、HD DVD、摄影机等之间互相通信将不再需要视频电缆或声频电缆。目前,芯片组的上市时间还未确定,预计2008年初在美国拉斯维加斯举办的消费电子展(CES)上会对其进行演示。
链 接:芯片技术前瞻
Sun公司的电脑芯片连接新技术——Proximity
Hot Chips不仅介绍近期推出的和即将推出的各种产品,而且还有很多前瞻性的技术,预示着未来几年甚至几十年内能够推动芯片发展的新趋势。
Sun公司计划将在未来4年里推出一种新的电脑芯片连接技术——Proximity技术。这项新的技术将跳过现有设计里连接芯片的连线,使芯片之间直接通信,无需电路板、电线或Pin接口。由于芯片之间数据传输速度以及传输通道的提升,机器的整体性能会逐步提高,能耗则会下降。
在过去20年中,尽管处理器的性能不断得到提升,但输入输出接口却逐渐成为性能瓶颈。以前,芯片封装以后只能通过金属针(Pin)与电路板相连,但由于这些针脚尺寸太大,限制了接口空间,导致带宽受到严重限制。Sun表示,使用这种连接方法能够大大增加芯片之间的通信带宽,达到每平方毫米10Tb,是普通芯片连接方式的10倍。由于通信带宽的增加,Proximity技术还可以省去了芯片的缓存部分,从而降低了制造成本。
IBM的Shahidi预言,8年后11nm级制造工艺将出现,但是就目前的技术水平而言还不现实。另外,Intel的Mayberry表示,不久前已经放弃了简单的CMOS缩放技术,取而代之的是使用一个新型装置进行缩放。这种新型缩放技术将能持续更久的时间。UC Berkeley大学的Kubiatowicz一直在研究量子计算机。Kubiatowicz表示量子計算机的原理是以离子阱为基础的,与微处理器的复杂关系有密切关系。量子计算机中的基本单元是量子比特。由于独特性质,量子比特不仅可以取0或1,还可以同时读取0和1。最后,斯坦福大学的Horowitz教授讲到CMOS技术最终会被取代,但是目前还没有技术可以代替,未来设计师将开发出尺寸更小的工艺技术。
惠普实验室的Norm Jouppi讲述了40年来IC制造的发展历程。IC形体尺寸为最初的1%,计算能力提高了10000倍,运行频率提高了100倍。过去的40年我们一追求在芯片上获得更多的晶体管,接下来的40年应注重电路的每个部分。光子学和纳米技术将应用于改进CMOS。光子开关比硅晶体管更有优势,因为它们能够达到更高的带宽。