人工智能模型的增长超过了硬件的改进

自 2018 年以来,MLCommons 联盟一直在举办一种用于人工智能训练的奥运会。该竞赛名为 MLPerf,由一组任务组成,用于在预定义的数据集上训练特定的 AI 模型,以达到一定的精度。从本质上讲,这些任务称为基准测试硬件和低级软件配置以训练特定 AI 模型的设置情况。
每年两次,公司都会将他们的提交(通常是 CPU 和 GPU 集群以及针对它们优化的软件)放在一起,并竞争看看谁的提交可以最快地训练模型。
毫无疑问,自 MLPerf 成立以来,用于 AI 训练的尖端硬件已经有了巨大的改进。多年来,Nvidia 发布了四代新一代 GPU,这些 GPU 现已成为行业标准(最新的 Nvidia 的 Blackwell GPU 尚未成为标准,但越来越受欢迎)。参加 MLPerf 竞争的公司也一直在使用更大的 GPU 集群来处理训练任务。

然而,MLPerf 基准测试也变得更加严格。MLPerf 负责人 David Kanter 表示,这种严谨性的提高是设计使然——基准测试试图跟上行业的步伐。他说:“基准测试旨在具有代表性。”
有趣的是,数据显示,大型语言模型及其前身的规模增长速度比硬件跟上的速度还要快。因此,每次引入新的基准测试时,最快的训练时间都会变长。然后,硬件的改进逐渐缩短了执行时间,但又被下一个基准测试所阻挠。然后循环重复。











评论