"); //-->

10月29日消息,YouTube视频博主 ServeTheHome 首次曝光了埃隆·马斯克 (Elon Musk)旗下人工智能企业xAI的Colossus AI 超级计算机集群,其集成了100000个英伟达(NVIDIA)H100 GPU,号称是目前全球最强大的AI超级计算机集群。
早在今年7月下旬,马斯克就在“X”平台上宣布,自己已经启动了“世界上最强大的 AI 集群”。这座AI集群从开始建设到完成组装仅花了122天就完成了,目前已经上线运行了约3个月。
根据ServeTheHome曝光的信息来看,庞大的Colossus AI超级计算机集群采用的是超威电脑(Supermicro)的服务器,其基于NVIDIA HGX H100方案,每个服务器中拥有8个H100 GPU,封装在 Supermicro 的 4U 通用 GPU 液冷系统内,为每个 GPU 提供简单的热插拔液冷。这些服务器装载在机架内,每个机架可容纳 8 台服务器,也就是说每个机架内有 64 个 GPU。1U 歧管夹在每个 HGX H100 之间,提供服务器所需的液体冷却。每个机架的底部是另一个 Supermicro 4U 单元,这次配备了冗余泵系统和机架监控系统。

△四组 xAI 的 HGX H100 服务器机架,每组可容纳八台服务器。(图片来源:ServeTheHome)

△xAI Colossus GPU 服务器的后部访问。每台服务器有 9 根以太网电缆,每台服务器有 4 个电源。电源和液体冷却软管也可见。(图片来源:ServeTheHome)
这些机架以 8 个为一组配对,每个阵列有 512 个 GPU。每台服务器都有四个冗余电源,GPU 机架的后部露出三相电源、以太网交换机和一个提供所有液体冷却的机架大小的歧管。Colossus 集群中有超过 1500 个 GPU 机架,或近 200 个机架阵列。据英伟达首席执行官黄仁勋称,这 200 个阵列的 GPU 仅用了三周时间就完成了安装。
由于 AI 超级集群不断训练模型的高带宽要求,xAI 在其网络互连性方面提供了超大的带宽。目前每个显卡都有一个 400GbE 的专用 NIC(网络接口控制器),每台服务器还有一个额外的 400Gb NIC。这意味着每台 HGX H100 服务器都有每秒 3.6 TB 的以太网速率。整个集群都在以太网上运行,而不是 InfiniBand 或其他在超级计算领域标配的连接。
△仰望一大片的黄色以太网电缆,将 xAI Colossus 集群连接在一起。多层过宽的电缆线路嵌入天花板中。(图片来源:ServeTheHome)

△xAI 的 Colossus CPU 计算服务器,看起来与该站点中也广泛使用的 Supermicro 存储服务器完全相同。(图片来源:ServeTheHome)
当然,像 xAI 旗下Grok 3 聊天机器人这样基于训练 AI 模型的超级计算机需要的不仅仅是 GPU 才能运行。Colossus集群当中的存储和 CPU 计算机服务器的详细信息仍未曝光,不过这些服务器也大多采用 Supermicro 机箱。一波又一波的 NVMe 转发 1U 服务器内部带有某种 x86 平台 CPU,可容纳存储和 CPU 计算,还具有后入式液体冷却功能。
另外,在该超级计算机集群的外面,还可以看到一些大量捆绑的特斯拉 Megapack 电池(每个最多可容纳 3.9 MWh)。该电池阵列的是为了应对突发停电的临时备用电源,其可以在毫秒之间快速提供供电,相比柴油发电机反应要快得多,可以使得有足够时间去启动其他备用电源。
编辑:芯智讯-浪客剑
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
可编程快速充电管理芯片MAX712/ MAX713电路
预测:全球通信芯片市场2003年将反弹
[原创]集成光学/IC模块 -- 将系统级芯片提高到新水平
ep7312芯片原理及应用
KS8999 以太网络交换机芯片
基于D类功放专用驱动芯片驱动的高保真纯正弦波逆变器1
纳芯微推出 NSUC1527 氛围灯驱动芯片 赋能智能座舱区域化动态光效
华为麒麟9030S芯片首发
DS2413 1-Wire 双通道寻址开关
基于D类功放专用驱动芯片驱动的高保真纯正弦波逆变器
Arm遭遇监管危机:FTC针对其技术授权启动反垄断调查
苹果A20芯片大概率无缘WMCM 封装技术
Dallas实时时钟(RTC)芯片DS1306硬件手册
保证航天飞机起飞 NASA到处寻找8086芯片
am29lv160db芯片烧写/擦除判断位d7不够可靠?!
先进的锂电池线性充电管理芯片BQ2057充电电路
中微半导:发布自研32M bit SPI NOR Flash芯片
下一代先进封装的关键抉择
用MAX610系列AC/DC芯片构成的小功率无变压器稳压电源
数据中心与消费电子芯片拉动台积电一季度营收增长
经验点滴之二:烧写器PICKIT
Q1服务器CPU均价大涨27% 英特尔被曝出售原本将报废的芯片
芯片比豪车保值? 专家揭硅谷暴利内幕「价格涨疯了」
芯海科技锂离子电池系统的BMS芯片CBM9680
【圣邦微电子】SGM37460Q
s3c4510 芯片手册