忆往昔展未来 AMD能否建立不毁防线?
阳光般的贵人
本文引用地址:https://www.eepw.com.cn/article/201708/362433.htm但AMD 过去没真正经营过服务器市场,因产品需更可靠,软硬体环境更加复杂,服务器的产品验证远比个人电脑严谨,那AMD 如何弥补缺乏经验的弱点?
无独有偶,因Ultra SPARC 逐渐失去竞争力,被迫进入x86 服务器市场且在市场开发阶段不断挣扎的Sun,也许因Opteron 系统架构近似于后来取消的几个UltraSPARC 处理器专案,优先选择AMD 为x86 服务器处理器供应商,Sun 也是最早推出Opteron 服务器的一线大厂。Sun 身为客户的反馈,补强了AMD 过去一直缺乏经验的服务器环境验证,这影响远远超出很多人的想像。
Sun 的选择,同时增强了其他服务器市场竞争对手与企业客户对AMD 服务器产品线的信心,AMD 开始懂得如何做好过去一直被系统客户骂翻的产品品质和严苛验证,而且随着越来越多客户选择Opteron,进入良性循环,直到开始有越来越多企业用户相信“Opteron 优于Xeon”,包括台湾以前某个“有名大站”等。
除了从天上掉下来砸到AMD 的幸运,已经没有其他可以解释的理由了。
AMD 从此不再是企业市场的陌生人
也许一般个人电脑玩家无法体会这种感觉,但当看到最普及的商用Unix 作业系统Solaris,跑在搭载AMD Opteron、由Sun 天字第一号员工亲自设计如同艺术品的Galaxy 系列x86 服务器上,这对当时无法把AMD 跟企业应用联想在一起的企业客户是何等巨大的震撼。
别说支援原生双处理器了,你看过8 颗Opteron 处理器的服务器吗?而且上面挂的品牌还是Sun HP 这些大厂(HP 虽贵为Intel 在Itanium 最重要甚至可说是实际上唯一的伙伴,但后来HP 卖Opteron 服务器却是卖最凶的,Intel 应该不少人内心五味杂陈)。
这也是Hector Ruiz 担任AMD 执行长的最大贡献,让AMD 成功进入企业市场,不只服务器,后来商用电脑与笔电也雨露均沾,AMD 慢慢占有一席之地,在职场随处可见AMD Inside 的系统。即使近年AMD 比较弱势,多数人也不会觉得公司配发给你的生产力工具里面装着来自AMD 的心脏,是很奇怪的事情。
AMD Opteron 的成功,也许可以直接从产品牌价略见一斑:2003 年的Opteron 846 / 848,曾高达3,199 美元,直到最近的EPYC 7500,才再度看到这种等级的价格标签,整整相隔了近14年。
得来不易的优势最终仍惨遭Intel 钟摆巨轮辗碎

但AMD 的攻势也就到了尽头,接着就是Intel 在2006 年重整旗鼓开始帝国大反击,也是关心过去10 年处理器市场的读者所熟悉的“钟摆(Tick-Tock)战略”,小步快跑,急起直追,展现了惊人的执行力,以服务器市场为主,Intel 追击的轨迹可简述为:
2006年:由以色列海法主导、原本和NetBurst高低档搭配的Pentium M体系Merom微架构,完全取代NetBurst,一统服务器、桌机、笔电。这时Intel靠着Woodcrest夺回单一核心的效能优势,也再度确定Intel高效能x86微架构的发展基础,回到起源于1995年Pentium Pro的P6,直到非循序指令执行引擎替换成NetBurst系的Sandy Bridge,才替问世于1995年的P6划下辉煌的句点。
没有原生4 核没关系,采用多芯片封装一次包两颗凑4 核也可以。当时应该也少人预期到,隔没几年,就换AMD 被迫如法炮制昔日嘲讽的“双馅水饺”,在Socket G34 塞两颗核心二打一,勉强对抗占有优势的Intel。
2009年:由Hillsboro主导、在Pentium 4初期曾目标“时脉上看10GHz”的Nehalem,重回以P6体系为基础后,原生4核加上了同时多执行绪、QPI汇流排、整合式记忆体控制器与相对应的MESIF快取记忆体一致性协定,基本上已经可以视为“Intel世界的K8”,但青出于蓝胜于蓝,AMD K8的多处理器系统架构优势,此时已荡然无存(除了Intel多出很烫手有点难散热的IOH),支撑AMD不坠的,只有K8重大战略胜利的剩余动量与现有客户的信心度。
对Intel,开始移植源自Itanium 的系统可靠性技术至8 处理器Nehalem-EX 最重大的意义是:确立Itanium 边缘化的命运。2006 年启动钟摆战略时,将64 位元x86 指令集从心不甘情不愿的IA-32e 和EM64T 正名为Intel 64,就初露端倪。这重大的战略决定,也和当时Intel 部分高层离职潮有直接或间接关系,包括因P6 奇迹而拥有完美“服务器夏天”感到骄傲的某任Cadence 执行长,与18 岁就进Intel 上班,后来确定抢不到执行长而跳槽VMware 时还放话“Itanium 业务其实有赚钱”的那位。
当然,AMD 也没有闲着坐等Intel 咬上来,但以K8 为基础的原生4 核K10(Barcelona,Shanghai)与原生6 核K10(Istanbul),相较于Intel 的钟摆频率,进步幅度都太小了,而Barcelona 的TLB 臭虫事件,更伤害了企业对Opteron 的信心,以Nehalem 微架构与Tylersburg 平台为死亡交叉点,即使AMD 再如何对外宣称“执行力到位”,如2006 年底在德州展示原生4 核,2009 年准时推出Istanbul 等,颓势已无法挽回。
2011~2012年:AMD一拖再拖、由IBM Power4总架构师Chuck Moore操刀的Bulldozer,与Intel同样一再延宕的Sandy Bridge在服务器市场顶上决战,从内到外每个环节几乎都输人的AMD,就如同在卫城作战失败后的德军,从此一蹶不振,连续4个世代丛集多执行绪微架构都被Intel“后P6时代”钟摆压垮,低耗电微架构Jaguar与ARM Cortex-A57的Opteron,对大局完全无足轻重,直到2017年Zen微架构的EPYC问世前,没有一丝一毫翻身的可能性。
对了,为何AMD 没有K9?因为K9 的英文发音是“犬类”,AMD 不想当败家之犬,只可惜本名K8L 的K10 也没有成功阻止AMD 退潮。
走音出锤的推土机工地秀
Intel 有钟摆,AMD 当然也有,只是跟Intel 相比,AMD 连续4 个世代的丛集多执行绪微架构,完全是小巫见大巫,而AMD 为了异质多核心大计预先铺设的暗桩,也被Intel的钟摆巨轮辗成碎片。
2011年:推土机(Bulldozer),32nm制程,出师不利的先锋,因为推土机设定集里面的预定对手不是Sandy Bridge,而是前一代Westmere甚至是更早的Nehalem。“刚刚好”经领导K7救世主的Dirk Meyer就在2011年初从执行长大位下台一鞠躬,代表AMD经营阶层对采取双轨路线(推土机搭配山猫)投下的不信任票。
2012年:打桩机(Piledriver),32nm制程(SOI晶圆),微幅改进微架构,主要着眼在分支预测和指令排程,但聊胜于无。这时候,已经传闻AMD准备全面弃守现有产品时程表,全力投入全新x86微架构与开辟ARM服务器战线。
2014年:压路机(Steamroller),28nm制程,AMD终于真正对症下药,疏通指令管线前端的塞车问题,改进指令快取的命中率(2路64kB升级为3路96kB),新增微指令回圈缓冲区,也让丛集多执行绪的两个整数逻辑运算核心拥有专属的指令解码器,但为时已晚,AMD连早已不再闪亮的金鸡母Opteron产品线都放弃导入“新”核心了,仅APU产品线有幸一亲芳泽。
2015年:Excavator(挖土机),28nm制程(当然有所改进),在设计工具端,因引进源自于GPU产品线的高密度函式库,所以有更小的芯片面积和更好的电力效率,至于支援AVX2指令集与DDR4记忆体就不值得特别着墨了。
AMD原始如意算盘:用比较简单的微架构跟你拼核心数和电力效率(类似RV770 GPU的概念),日后将双核心共用的浮点运算单元换装成GPU更有巨大的应用弹性,大概万万没想到Intel真的就脱下裤子跟你拼了。推土机家族留下的遗产,只有在Zen微架构开花结果的先进动态分支预测技术。
同场加映Intel 的钟摆,AMD 战线不全面崩盘还真的没有天理:
2011年(Tock):Sandy Bridge,32nm制程,AVX指令集,微指令快取堪称Intel从NetBurst那激进至极的Trace Cache一路摸石过河的最佳集大成,换装NetBurst系非循序指令执行引擎,也结束了光荣的P6时代。这时候,AMD用两倍的核心数勉力抗衡,还稍有喘息空间。
2012年(Tick):Ivy Bridge,22nm制程(Intel不动声色导入3D电晶体),如过去的Tick,充满了一堆看起来好像很没什么但又好像很厉害的“微幅改进”,但原生15核心版本,几乎就是钉在AMD Opteron棺材上的第一根钉子,让AMD已经没有靠双馅水饺以量取胜的希望。
2013年(Tock):Haswell,22nm制程3D电晶体,AVX2指令集,Intel主力x86微架构发展史上最大的执行单元横向扩张,最大核心数扩张到18核,AMD连核心数量优势都没了,棺材再打上一根钉子。值得注意的是,从Haswell开始,Intel开始虚拟化功能,加入更精细的快取存取QoS机能。
2014年(Tick):Broadwell,14nm制程3D电晶体,还是依循优良传统,充满一堆看起来好像很没什么但又好像很厉害的“微幅改进”,最大22核心和有点走火入魔的快取存取QoS机能,让已经被埋在土里的Opteron就算躺着中枪也不会喊痛了。不过Broadwell世代的整合内显处理器却隐藏了Intel未来在服务器与高效能运算市场可能随时上场的超级武器:可能用来当L4快取的高容量嵌入式DRAM,这在过去是IBM和日本厂商的强项,未来却可能变成Intel的王牌。
2015年(Tock):Skylake,14nm制程3D电晶体,钟摆巨轮终于停下,Intel恐怕也被太过频繁的制程升级搞到人仰马翻了,产品持续推陈出新对业务系统造成的销售压力大概也不足为外人道也,开始转型成牙膏商,一次Tock挤一次不够,你可以挤三次。Intel开始好整以暇,慢条斯理的将过去不同插槽的多种服务器平台,与FPGA、HPC专用高速介面Omni-Path等特殊应用,毕其功于一役整合在Skylake-SP“Purley”上(只差没赶上3DX Point NVDIMM的Apache Pass),也让服务器用处理器有差异化(AVX-512指令集,Mesh汇流排)──然后就被AMD EPYC一口咬上。
洋洋洒洒一大篇,重点只有一句话:AMD的研发资源远远不及Intel,没有任何犯错的空间,Intel以“擅于站在巨人肩膀上”的以色列海法与“持续追求激进创新”的奥勒冈Hillsboro两大轴心担纲创新的“Tock”,搭配数个负责改良“Tick”或专注于特殊应用的辅助研发中心(像总部Santa Clara、加州Folsom、德州Austin、印度Bangalore等),才足以支撑x86单一微架构开发案,因指令集先天毫无道理可寻的高度复杂性与其带来的验证复杂度,动辄3到5年,却如此密集的产品更新频率。
反过来说,钟摆战略强迫每个研发中心“有效分工”,也彻底解放了Intel 的处理器研发潜能,至于有没有趁机解决内部政治问题的家务事,就不是外人可以置喙的了。
评论