不想依赖英伟达！微软发布两款自研AI芯片，可训练大模型

作者：时间：2023-11-17 来源：网易科技

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

11月16日消息，美国时间周三，微软发布了首款自研人工智能（AI）芯片，可用于训练大语言模型，摆脱对英伟达昂贵芯片的依赖。微软还为云基础设施构建了基于Arm架构的CPU。这两款自研芯片旨在为Azure数据中心提供动力，并帮助该公司及其企业客户准备迎接AI时代的到来。

本文引用地址：https://www.eepw.com.cn/article/202311/453015.htm

微软的Azure Maia AI芯片和Arm架构Azure Cobalt CPU将于2024年上市。今年，英伟达的H100 GPU需求激增，这些处理器被广泛用于训练和运行生成图像工具和大语言模型。这些GPU的需求非常高，甚至在eBay上的售价超过了4万美元。

微软Azure硬件系统和基础设施主管拉尼·博卡（Rani Borkar）在接受采访时解释说：“微软在芯片开发方面有着悠久的历史。”早在20多年前，微软就与人合作开发了Xbox的芯片，甚至还合作设计了Surface设备的芯片。博卡表示：“这些努力都是建立在这些经验基础之上的。2017年，我们开始构建云硬件堆栈，并开启了这段旅程，使我们走上了构建新自研芯片的轨道。”

新的Azure Maia AI芯片和Azure Cobalt CPU都是由微软内部构建的，并对其整个云服务器堆栈进行了深度检修，以优化性能、功耗和成本。博卡表示：“我们正在重新考虑人工智能时代的云基础设施，并真正优化该基础设施的每一层。”

Azure Cobalt CPU以元素“钴”（钴蓝是重要的蓝色颜料）命名，是一款128核芯片，基于Arm的Neoverse CSS设计，并为微软定制。它旨在为Azure上的通用云服务提供支持。博卡解释称：“我们花了很多心思，不仅要让它具有高性能，还要注意到电源管理。为此我们做了许多有意识的设计选择，包括控制每个内核和每台虚拟机上性能和功耗的能力。”

微软目前正在测试Cobalt CPU的工作负载，如Teams和SQL服务器，并计划明年为客户提供各种工作负载的虚拟机。虽然博卡没有直接将其与亚马逊在AWS上提供的Graviton 3服务器进行比较，但与微软目前用于Azure的基于Arm的服务器相比，应该会有一些明显的性能提升。博卡表示：“我们的初步测试表明，我们的性能比目前使用商用Arm服务器的数据中心提高了40%。” 微软还没有分享完整的系统规格或基准。

微软的Maia 100 AI加速器以“昴宿四”（一颗明亮的蓝色恒星，希腊神话中称为迈亚）命名，专为运行云端人工智能工作负载而设计，如大语言模型训练和推理。它将用于支持该公司在Azure上某些最大的人工智能工作负载，包括与OpenAI高达100多亿美元的合作。微软将为OpenAI的所有工作负载提供支持。这家软件巨头一直在与OpenAI在Maia的设计和测试方面进行合作。

OpenAI首席执行官萨姆·奥特曼（Sam Altman）说：“当微软第一次分享他们的Maia芯片设计时，我们感到非常兴奋。我们一起努力，利用我们的模型来改进和测试它。Azure的端到端人工智能架构现在通过Maia进行了优化，为训练更有能力的模型铺平了道路，并使这些模型对我们的客户来说变得更便宜。”

Maia采用台积电5纳米工艺制造，拥有1050亿个晶体管，比AMD的MI300X AI GPU（1530亿个晶体管）少了30%左右。博卡说：“MAIA支持我们的第一个8位数据类型，即MX数据类型，以便协同设计硬件和软件，这有助于我们支持更快的模型训练和推理时间。”

微软与AMD、Arm、英特尔、Meta、英伟达和高通等公司都加入了一个组织，该组织正在为人工智能模型的下一代数据格式制定标准。同时，微软正在以开放计算项目(OCP)的协作和开放工作为基础，以使整个系统适应人工智能的需求。

博卡透露：“Maia是微软制造的第一个完整的液冷服务器处理器，我们的目标是以更高的效率实现更高的服务器密度。因为我们正在重新构想整个堆栈，我们特意考虑到了每一层，所以这些系统实际上也适合我们目前的数据中心。”

这对微软来说非常关键，因为它可以更快地启动这些人工智能服务器，而不必在世界各地的数据中心重新为它们腾出空间。微软建造了独特的机架用来放置Maia服务器主板，并配有名为“助手”的液体冷却器。它的工作原理就像在汽车或高档游戏PC上搭载的散热器，可以冷却Maia芯片的表面。

除了共享MX数据类型，微软还与合作伙伴共享其机架设计，以便他们可以在内部有其他芯片的系统上使用它们。但Maia芯片的设计不会被更广泛地分享，微软将其保留在内部。

Maia 100目前正在GPT 3.5 Turbo上进行测试，该模型正在支持ChatGPT、Bing AI和GitHub Copilot等工具。微软正处于部署的早期阶段，就像Cobalt一样，该公司还不愿意发布确切的Maia规范或性能基准。

这使得我们很难准确解读Maia将如何与英伟达广受欢迎的H100 GPU、最近发布的H200，甚至AMD最新的MI300X进行比较。博卡也不想进行比较，而是重申，与英伟达和AMD的合作对于Azure人工智能云的未来仍然非常关键。博卡表示：“在云计算运营的规模下，优化和整合堆栈的每一层，以最大限度地提高性能，使供应链多样化，并为我们的客户提供基础设施选择，这真的非常重要。”

供应链的多样化对微软来说同样重要，尤其是考虑到英伟达目前是人工智能服务器芯片的主要供应商，而各家公司一直在竞相购买这些芯片。据估计，为了推进ChatGPT的商业化，OpenAI需要超过3万个英伟达的老款A100 GPU，而微软的自研芯片可以帮助其客户降低人工智能的成本。微软还为自己的Azure云工作负载开发了这些芯片，而不打算将其出售给英伟达、AMD、英特尔和高通等其他公司。

博卡解释称：“我认为这更像是一种互补，而不是与他们竞争。今天，我们在云计算领域同时使用英特尔和AMD的芯片。同样，在人工智能领域，我们也可以同时使用AMD和英伟达的芯片。这些合作伙伴对我们的基础设施非常重要，我们真的希望给我们的客户选择。”

Maia 100和Cobalt 100的命名表明微软已经在设计这些芯片的第二代版本。博卡说：“这是一个系列，不只是一代就结束了，但我们不会分享我们的路线图。”目前还不清楚微软多久会发布一次Maia和Cobalt的迭代，但考虑到人工智能的发展速度，如果Maia 100的继任者以与英伟达H200相似的速度发布（大约20个月），无需为此感到惊讶。

现在的关键是，微软将以多快的速度让Maia运行起来，加快推进其人工智能雄心，以及这些芯片将如何影响人工智能云服务的使用定价。微软还没有准备好谈论这款新服务器的定价，但我们已经看到该公司悄悄地推出了针对Microsoft 365的Copilot，每位用户每月收费30美元。

目前，Microsoft 365版的Copilot仅限于微软的大客户，企业用户必须承诺至少拥有300个用户，才能使用这款新的人工智能Office助手。随着微软本周推出更多的Copilot功能，并对Bing Chat进行了品牌重塑，Maia可能很快就会帮助弥补对支持这些新体验的人工智能芯片的需求。