"); //-->
7月28日消息,Meta近期发布了目前全球最强的开源大模型LLAMA 3.1 405B,引发了业界的关注。近日,Meta发布了关于LLAMA 3.1 405B的研究文章,详细介绍了其在 16,384 个 英伟达(NVIDIA)H100 80GB GPU 的集群上训练Llama 3.1 405B 模型所遇到的问题。
据介绍,LLAMA 3.1 405B在16,384 个 H100 80GB GPU 的集群上持续训练了54天,在此期间遇到了 419 个意外的组件故障,平均每三个小时就发生一次故障。其中一半的故障,都是由于GPU 或其板载 HBM3 内存问题。
超级计算机是极其复杂的设备,使用数以万计的处理器、数十万个其他芯片和数百英里的电缆连接在一起。在一台复杂的超级计算机中,每隔几个小时就会发生故障,这是正常的,开发人员的主要技巧是尽量确保系统保持正常运行,无论这种局部故障如何。
比如高达16,384个H100 GPU 训练的规模和同步性质使其容易失败。如果故障未得到正确缓解,单个 GPU 故障可能会中断整个训练作业,从而需要重启。然而,LLAMA 3 团队保持了超过90%的有效训练时间。
总结来说,在为期 54 天的训练中,有 466 次工作中断,其中 47 次是计划性的,419 次是意外的。计划内中断是由于自动化维护造成的,而意外的中断主要源于硬件问题。其中,GPU 问题是最大的一类,占意外中断的 58.7%。只有三起中断事件需要大量的人工干预,其余的则由自动化管理。

在 419 次意外中断中,148 次 (30.1%) 是由各种 GPU 故障(包括 NVLink 故障)引起的,而 72 次 (17.2%) 是由 HBM3 内存故障引起的,这并不奇怪,因为 Nvidia 的 H100 GPU 消耗约 700W 并承受大量热应力。有趣的是,在 54 天内只有两个 CPU 出现故障。
虽然 GPU 是最重要的组件,但恰好也很脆弱,但 41.3% 的意外中断是由多种因素引起的,包括软件错误、网络电缆和网络适配器。
为了提高效率,Meta 的团队减少了作业启动和检查点时间,并开发了专有的诊断工具。PyTorch 的 NCCL 飞行记录器被广泛用于快速诊断和解决挂起和性能问题,尤其是与 NCCLX 相关的问题。该工具可捕获集体元数据和堆栈跟踪,有助于快速解决问题。
编辑:芯智讯-浪客剑
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
下一代先进封装的关键抉择
ep7312芯片原理及应用
华为麒麟9030S芯片首发
Q1服务器CPU均价大涨27% 英特尔被曝出售原本将报废的芯片
[原创]集成光学/IC模块 -- 将系统级芯片提高到新水平
预测:全球通信芯片市场2003年将反弹
KS8999 以太网络交换机芯片
Dallas实时时钟(RTC)芯片DS1306硬件手册
芯海科技锂离子电池系统的BMS芯片CBM9680
基于D类功放专用驱动芯片驱动的高保真纯正弦波逆变器1
Arm遭遇监管危机:FTC针对其技术授权启动反垄断调查
可编程快速充电管理芯片MAX712/ MAX713电路
基于D类功放专用驱动芯片驱动的高保真纯正弦波逆变器
保证航天飞机起飞 NASA到处寻找8086芯片
芯片比豪车保值? 专家揭硅谷暴利内幕「价格涨疯了」
am29lv160db芯片烧写/擦除判断位d7不够可靠?!
数据中心与消费电子芯片拉动台积电一季度营收增长
用MAX610系列AC/DC芯片构成的小功率无变压器稳压电源
纳芯微推出 NSUC1527 氛围灯驱动芯片 赋能智能座舱区域化动态光效
DS2413 1-Wire 双通道寻址开关
经验点滴之二:烧写器PICKIT
苹果A20芯片大概率无缘WMCM 封装技术
中微半导:发布自研32M bit SPI NOR Flash芯片
【圣邦微电子】SGM37460Q
s3c4510 芯片手册
先进的锂电池线性充电管理芯片BQ2057充电电路