新闻中心

EEPW首页 > 设计应用 > 热门芯片亮点

热门芯片亮点

——
作者:时间:2007-12-03来源:收藏

  别让过热

  8月14~16日,在stanford大学召开的为期三天的第17届热门展(hot chips 17)落下了帷幕。回顾本届展览,展品范围广泛,从科研前沿到流行商用应有尽有,本文很难面面俱到(可浏览www. hotchips.org/hc17),仅就当前的亮点作一概览。

  今年的热门芯片展上展出了ibm的游戏机控制台,并进一步披露cell处理器的结构,微软谈了xbox360系统的某些的细节,toshiba介绍了为playstation 3配套的超级i/o芯片,还有ibm关于其寄存器的数据操作细节、器件连接总线和编程模块等展项。

  会展程序的安排反映了当前研发的主体,正转向可配置逻辑和浑然不于传统冯尼曼主流结构的处理器。telairity, philips, cradle和tensilica (软核ip)等公司研制出各有自己独特解决方法的媒体处理器。

  在前沿技术方面,luxtera令听众第一次窥见用调制激光所生产的硅片结构。环形调制器生成的半径为30_m的硅结构准备用于生产可微调的光学滤波器。

  另一个非常酷的新技术是用超导和josephson结研制的40ghz的高频逻辑开关,用于控制无损耗超导中传送的量子脉冲信号。其极终目标是要制造超带宽的微型控制器件。虽然这项技术今天还正在开发之中,但是感到美中不足的是,为保持超导所需的7k低温,所需制冷设备太过笨重。

  离不开

  intel技术与生产部总经理bill holt回顾intel半导体技术发展的历程时说,intel持续地保持着大约每两年技术前进一个阶梯的速度,印证了的正确。而且预计最近若干年内还会出现几次这种技术的阶跃。

  holt指出当前的生产技术向多核结构转移,其背后的秘密与降低硅片的功耗密度有关。双核处理器使每个核的工作电压与频率降低,而管芯面积翻番。于是,原来集中在单核管芯的功耗不仅得以降低并且还被分散于倍增的面积之上。

  改变特定电路的设计也能降低局部的热力集中。将电路分成两个半速的功能块,可以降低每个功能块的峰值功率,且将功耗分散于较大面积的管芯之上。代价是需用双倍的晶体管和较大的管芯面积。如果使用90nm或更先进的工艺,将大量的晶体管集成于相对较小硅面积的余地越大。

  intel没有走大力降低功能块功率的道路,而是绕过去对时钟电路加以控制。可是对时钟电路的控制并不能改变晶体管的静态漏电流。为切断漏电流需增加“睡眠”晶体管,像高速缓存器那样集中地切断大型晶体管的电源线和底线。但是它们的再次上电,需要增加一个以上的额外时钟周期。holt说,这项技术已用于整块的高速缓存。那里需要更多的时钟周期,然而切断电源的时间往往是数倍于此时间的。

  增加额外时钟周期的主要原因是因连线的rc延迟。改进连线结构使电路靠得更近,改进管芯集成策略将硅层3维叠置。这种将同样的管芯上下叠置,可能是制造多核处理器和相应soc的更好更快的途径。这种想法与sun公司的临近连接的研究课题有些相近。

  xbox360结构设计

  微软对即将面世的xbox360游戏控制台系统作了进一步介绍,并在一台xbox360的开发系统上进行演示。微软是在多核策略的基础上构建xbox360的。微软表示其设计目标:旨在向游戏程序的开发者提供一个强大而价格又是可接受的平台。功能强大的3核处理器是一个便于开发的对称多处理器方案,微软使用openmp实现线程api。3核处理器附有1mb的 l2 高速缓存和总数为1.65亿只晶体管。

  xbox360 有512mb统一的ddr3 dram 存储器,连接到图形处理单元(gpu) (见图1)。它不同于sony的playstation 3 游戏站的设计。sony的设计中,存储器是分散于多核处理器和gpu之间的。分散存储器的好处是各有自己专用带宽的存储器,但缺点是封装的引脚多、硅片集成度低、存储器划分固定和高价位。而统一存储器的好处是,可以按需要在处理器之间重新划分,但是,在设计xbox360时必须考虑到处理器与主存储器之间的较长延时,应采取措施进行补偿。

  

  图1 xbox360框图

  xbox360使用了一种技术使每个cpu核的数据流只进入自己的数据缓冲l1,避免多次出入高速缓存l2,搅乱那里的正常数据流 (见图2)。每个cpu核处理结束后的流才送到3核共用的l2 。gpu使用ibm设计的高速点-点连接,直接从3核共用的l2取到正确的数据流。采用这样的流数据编程模式,使程序员能以最少的读和写数来节约存储器的带宽。

  

  图2 xbox360的3核cpu框图。 每个cpu核模块将图形/文字的数据流送到l1 数据高速缓存,经整理后再送入共用的1mb l2高速缓存。 gpu 直接从l2 获得数据流,免除多余的对dram主存的读/写所有cpu核所用的高速缓存的位宽为128b。 l2高速缓存具有灵活的指令集能对确定的指令与数据加锁,如微软设计的vmx simd单元有专门扩展的指令。它包括有点积和支持同gpu相共享的direct3d api 数据格式。今年10月由in-stat《微处理器报告》主办的“秋季处理器论坛”上,对于xbox360 还会有进一步的介绍。

  ati所设计的gpu (见图3)具有48个并行的工作于500mhz的统一分色器核。每个核均支持32位的ieee浮点运算。它是对每条指令都能进行向量、标量、和纹理运算的超标量结构,每秒钟能执行240亿次分色器指令。其他可列出的峰值技术规范还有:全速时的每秒40亿次的像素运算、每秒80亿次的双向线性采样率、以及每秒5亿次的有关于三角形的几何运算。

  

  图3 xbox360 的图像处理单元(gpu)框图

  着眼于效率,cpu核可以工作于gpu的从机模式。为了及时提交3d图像,必须使图像跟上视频刷新的时间要求,经常需运行于最高优先级,各cpu核应竭尽全力保证所提供的流水线能够避免出现不自然的人为痕迹(如不完整的纹理组织)和屏幕更新的呆滞,总之,不允许干扰画面的真实感和游戏的沉迷感。

  xbox360芯片要在不同的90nm工厂生产。微软希望以后能把管芯的尺寸缩小,并移植到下一代生产工艺的流水线上去生产,从而降低游戏机控制台的价格。

  并非事必“多核”

  尽管intel对于多核处理器和xbox360作过许多正面的宣传,外界也有许多将多核处理器用于家用pc、游戏控制台、和其它消费设备的多种设想,然而,也有一种声音在说:皇帝没穿衣服!对热点芯片发表这样基调的,有nvidia公司的主要科学家david kirk,他指出,今天尚缺乏能有效使用多核处理器的内容(如游戏的节目)!几乎同时,john carmack——id软件公司的合伙创立人、技术主任和编程老鸟,在一次有关计算机游戏的聚会时谈到,用现行的软件方法和工具要想使多线程游戏程序正确地工作是很困难的。还指出,对于pc,除去应用代码问题之外,驱动程序也得改进。一般来说,编写常规的串序执行程序,游戏程序的编程人员需要花费多年时间才能对一种处理器体现出优化。将代码拆分成多核执行的形式,又得重新进行优化,它们都需要时间和重新加以研究和探讨。

  多线程编码的部分问题还在于,现在最常用的语言对于揭示出并行性的能力很弱。kirk也相信,对此问题,目前还没有足够的主流研究和教育部门的关注。超级计算机界的研究者和专业软件界的编程者可能都不会同意这种多核的主张,因为尚无多线程方面的扩展研究;再者,多线程也未形成主流研究课题。诚然,多核pc和游戏控制台将来会促使多线程编码成为一个主流研究课题。

  上述问题会获得解决的一个信号,是intel, microsoft, 和cell计算机的伙伴(ibm/sony) 提供了多核处理器的改良软件工具。当程序人员学会如何有效使用多核技巧的时候,相信抱怨定会减少。(摘自美国microprocessor report,梁合庆译)



评论


相关推荐

技术专区

关闭