新闻中心

EEPW首页 > 设计应用 > IA-64微处理器与HP高性能服务器体系结构

IA-64微处理器与HP高性能服务器体系结构

作者:武汉数字工程研究所 曾田 武汉凌久科技有限责任公司 吴向军时间:2002-12-05来源:电子设计应用收藏
IA-64体系结构
为进一步提高处理器的总体性能,要求处理器不仅要能更快地执行指令,而且还要在每个周期中执行更多的指令,以处理更多的信息,即通常所说的“并行执行”。而传统IA-32架构存在一些基本的性能限制。因此,美国HP和Intel公司几年前开始合作开发IA-64架构的处理器。通过把RISC和超长指令字VLIW技术结合起来,在级上改进性能,以增加指令级上的并行性,这就是采用全新结构的IA-64微处理器Itanium——“安腾”。
在该构架中定义了一种新的被称作“显式并行指令计算”的全新系统架构技术。每个指令周期可执行20条指令,大致是RISC指令集的4倍,是CISC(复杂指令结构)指令集的5倍。此技术能在原有的条件下获得最大限度的并行能力(即并行工作的潜力),并以明显的方式传达给硬件。同时,在EPIC技术的基础上定义了一种新的64位指令架构(ISA)。新的64位ISA采用全新的方式,把显式并行性能与推理和判断技术结合起来,打破了传统架构的顺序执行限制和局限性(如错误预测分支、存储等待等),使并行能力达到了新的水平,图1、图2是EPIC的硬件微型体系结构图。
从上图可看出,IA-64很像其他的64位RISC CPU:指令的长度是固定的,由一个指令、两个输入和一个输出寄存器组成;指令只对寄存器操作;超标量,具有多个不同的流水线或执行单元,能够并行执行许多指令。具体来说,IA-64主要特性表现在以下几个方面:
1.IA-64结构把三种指令捆绑成128位长的单一指令,处理速度更快
IA-64属于VLIW(超长指令集)架构,VLIW的架构简单,他将超标量芯片的协调并行工作所必需的一部分控制电路交由编译器处理,从而简化了CPU的结构。
2.位模板控制并行指令的执行
每个128位IA-64捆绑指令包含一个由几位组成的模板,它通过编译程序明确告诉CPU可以并行执行的指令。因此,CPU就不必仓促分析运行时的指令流来找出隐含的并行性,并把这种信息装入机器代码。每一种指令包括三个通用寄存器(GPR)字段,并且这种字段是整数和浮点(FP)运算指令特有的。这就是说,IA-64处理器将具有128个整数指令寄存器和128个浮点指令寄存器。所有的寄存器都是可编程的随机存取寄存器;而x86只有8个整数指令寄存器和8个浮点指令栈。IA-64处理器由于不存在寄存器不足的问题,指令位更宽,寄存器等候时间更少。
3.预测指令消除错误预测
IA-64编译程序将利用预测技术来消除错误预测分支指令引起的不良后果,并要求跳过超出分支指令的代码块。当CPU在运行时遇到一个预测的分支指令,它将沿着分支指令的所有目的地开始执行该代码,从而尽可能多地利用并行性。当CPU发现实际分支指令执行结果时,保存有效结果而放弃无效结果。
4.推测性装入指令
IA-64编译程序扫描源代码,从寄存器中发现即将到来的指令装入,并加上推测装入指令和推测检校指令。在运行时,第一个指令在编译程序要求数据之前,推测装入指令确定从寄存器装入数据。在让编译程序使用数据之前,推测检校指令检查装入。推测装入有助于消除存储器存取时间长的问题,并帮助提高并行性。
IA-64系统使用基于Infiniband技术的总线结构,它以交换式系统总线代替目前的共享式总线为核心,将NGIO和FutureIO两种技术合二为一,使系统总线、内存总线带宽和I/O总线带宽都将大大提高。IA-64系统带宽在2Gb/s以上,而目前的IA-32架构的典型系统带宽是1.06Gb/s,PCI带宽一般是0.4Gb/s。
另外,IA-64还包括一系列的内置特征,以延长计算机的正常运转时间,减少宕机时间。机器检测体系在内存和数据路径中提供了错误恢复和纠错能力,能让IA-64平台从预先导致系统失败的错误中恢复过来。
总之,与传统的体系结构相比,基于IA-64的处理器可以提供更高的指令级并行性(ILP)。这是通过使用推测和预测等先进技术,并辅以大量的内部硬件资源来实现的。这些技术使编译器能够发挥最大效能来安排指令执行,而同时使处理器亦发挥最佳效能来执行指令。这种编译器和处理器间的合力也正是IA-64有别于其它体系结构的优势所在。

HP Superdome服务器
体系结构
HP公司最先推出其支持IA-64的HP 9000 Unix服务器系列的新成员-Superdome,中文名字“超腾”。它既可支持Intel IA-64芯片体系结构,又可支持HP公司的PA-RISC 8600 CPU及其后继产品,并分别以16、32和64路CPU配置提供产品。
HP Superdome服务器采用HP可扩展计算结构(SCA),基于全局共享内存,即高速缓存一致性的非一致内存访问体系结构(cc-NUMA),属于第三代NUMA系统。其内存带宽为61.44Gb/s,I/O带宽为7.6Gb/s。包括I/O在内的所有资源均透明存取,本地节点保持大量相关缓存,使本地访问内存的次数最多,8节点交叉互联支持高达256条内存请求,使远程节点存取的平均等待时间明显降低。
HP Superdome服务器采用模块化设计,由不同的功能模块构成,并以基本节点中配置2-16路CPU,2-4个基本节点组成的多节点系统中配置32或64路CPU的产品形式出现。图3所示为6路HP Superdome服务器基本节点体系结构。基本节点中的模块主要是CPU扩展模块(又称Cell模块)、交叉开关模块、磁盘存储器扩展模块、基本的I/O等模块;在多节点系统中,还包括路由器互联模块、PCI扩展模块、XIO扩展模块和图形扩展等模块。
HP Superdome其核心采用了HP的Hyper Plane非阻塞8×8纵横交叉开关技术(如图4),交叉带宽为61.4Gb/s,可将所有的处理器和存储器通过交叉开关连接在一起,实现了从CPU 和I/O管道到存取系统的顺利访问。这些处理器、存储器和交叉开关的结合组成了称为NUMAlink的互联结构,并提供最大16路CPU的基本节点配置。
为了进一步增强扩展能力,HP Superdome服务器使用了一种基于共享内存的互连技术——即采用先进的路由芯片,通过使用特殊的传输介质构成具有高带宽和极低延迟的互联网络。路由芯片将所有基本节点上的交叉开关连接起来,形成一个单一的、连续的达1Tb的存储空间。并且处理器和本地以及远程存储器之间的通信宽带(双向)由原来的1.6Gb/s提高到3.2Gb/s,从而使4个基本节点连接组合成一个最多可配置4*16=64路CPU的并行服务器系统,以提供对cc-NUMA真正的支持,如图5。
目前,HP Superdome服务器的操作环境是64位的HP-UX UNIX操作系统,该系统提供了完全的64位环境,包括64位系统内核与地址空间,64位文件大小和文件系统大小,64位文件数据类型,能够支持15000个应用,与Superdome服务器的硬件结构协同,完全可满足包括电子商务、数据库、ERP、科学计算等关键应用的要求。

结语
并行处理是高性能计算的核心技术。其在微处理器这一系统级别的主要特征是尽可能提高指令级并行的能力;在服务器这样的计算机系统级别,则主要是提高多个微处理器或微处理器单元协同工作的效率。而Intel IA-64微处理器和HP Superdome服务器的体系结构可以说是充分体现了这一趋势,因此具有了优秀的性能,逐渐成为各自领域的领导产品。■

参考文献:
1. David A. Patterson & John L. Hennessy“Computer Architecture A Quantitative Approach”机械工业出版社 1999年.
2. “HP 9000 Enterprise Server Overview”惠普公司内部资料.
3. Tam, S. Et. Al, “Clock Generation & Distribution For the First IA-64 Microprocessor”, IEEE Journal of Solid State Circuits, Vol.35, Issue 11, Nov2000.
4. Rusu, S. & Singer G, “The First IA-64 Microprocessor”, IEEE Journal of Solid State Circuits, Vol.35, Issue 11, Nov2000.

作者简介:
曾 田:女,武汉数字工程研究所工程师,研究方向:实用计算机体系结构。
吴向军:男,高级工程师,武汉凌久新技术公司网络事业部,技术总监。



图1 IA-64微处理器的硬件体系结构框图

图2 IA-64微处理器EPIC机制图

图3 16路HP Superdome服务器基本节点体系结构

图4 8×8 Crossbar纵横交叉互联芯片内部结构图

图5 64路HP Superdome服务器结构框图(4个基本节点并行)



关键词: 微处理器

评论


相关推荐

技术专区

关闭