挑战英伟达!00 后哈佛辍学小哥研发史上最快 AI 芯片,比 H100 快 20 倍
出品 | CSDN
自 2022 年底以来,在由 ChatGPT 掀起的这场席卷全球的 AI 浪潮中,作为 AI 底层算力“霸主”的英伟达(Nvidia),可谓是最大受益者之一:不久前,英伟达一举超越微软和苹果,以 3.34 万亿美元的市值成为全球最有价值的公司。
归根结底,是因为英伟达在 AI 芯片市场占据着近乎垄断的地位:强大性能的 GPU 产品如 A100 和 H100 芯片,是大模型训练上的“硬通货”;CUDA 软件生态也几乎是英伟达的“护城河”。
因此谁也没想到,敢对着市值超 3 万亿美元、拥有 2.8 万名员工、处于垄断地位的英伟达高调“下战书”的,会是一支由 3 名大学辍学生创立、目前仅 35 名员工、刚筹集了 1.2 亿美元的团队:Etched。
(图片来自Etched官网)
ChatGPT 问世前的一场“豪赌”
从网上资料来看,Etched 是由三位哈佛大学辍学生 Gavin Uberti、Robert Wachen 和 Chris Zhu 在 2022 年创立的。
最初,Gavin Uberti 和 Chris Zhu 在大学暑期实习时进入了一家芯片公司,接触到底层硬件领域并为之吸引后,便决定从哈佛大学退学,又拉上了 Uberti 的大学室友 Robert Wachen,共同创立了 Etched 公司——据悉,当时 Gavin Uberti 正在攻读数学学士学位和计算机科学硕士学位。
(从左到右:Robert Wachen、Gavin Uberti 和 Chris Zhu)
Etched 初步成立后,三位 00 后创始人在 2022 年 6 月、ChatGPT 还未问世前就对 AI 进行了一场“豪赌”:“我们打赌,Transformer 将席卷全球。”
基于这个设想,他们推测专用 ASIC 芯片(专为特定架构设计的 AI 芯片)是一种必然趋势。
事实上,当时的 AI 模型种类繁多,有用于自动驾驶汽车的 CNN、用于语言的 RNN,还有用于生成图像和视频的 U-Nets 等等。而 Uberti 他们注意到,Transformer(ChatGPT 中的“T”)是第一个可以扩展的模型。
现阶段看来,他们似乎(暂时性)赌赢了:如今每一个最先进的 AI 模型都基于 Transformer,包括 ChatGPT、Sora、Gemini、Stable Diffusion 3 等等。
GPU 遭遇瓶颈,唯一方法是 ASIC
如开头所说,在这场 AI 大模型的全球竞赛中,大多数企业都离不开 GPU,这也是英伟达能成功垄断市场的原因之一。
然而,Etched 在博文中指出:这四年来,GPU 本身并没有多少提升,即芯片单位面积的计算能力(TFLOPS)变动不大,只是芯片面积变得更大了。
不论是英伟达的 B200、AMD 的 MI300,还是英特尔的 Gaudi 3 和亚马逊的 Trainium2,都是把两张芯片算作一张,以此实现所谓的“双倍”性能。
基于这个发现,Etched 确定了其发展路线:随着摩尔定律的放缓,提高芯片性能的唯一方法就是专业化——但在 ChatGPT 出现之前,Etched 认定的这个方向几乎没有市场。
当时,Transformer 还没风靡全球,许多公司都构建了灵活的 AI 芯片和 GPU 来处理数百种不同的架构,例如英伟达的 GPUs、Amazon 的 Trainium、AMD 的加速器、Graphcore 的 IPUs、D-Matrix 的 Corsair 和英特尔的 Gaudi 等。
如此背景下,自然没人想要制造专为特定架构设计的 AI 芯片(ASIC):Transformer 的市场不大,而芯片项目的成本为 5000 万至 1 亿美元,还需要数年时间才能投入生产。
但突然之间,ChatGPT 的全球爆火令情况发生了巨大变化:
(1)前所未有的需求:在 ChatGPT 之前,Transformer 推理的市场约为 5000 万美元,现在则已达数十亿美元。所有大型科技公司都在使用 Transformer 模型(OpenAI、谷歌、亚马逊、微软、Meta 等)。
(2)架构逐渐趋同:AI 模型过去变化很大,但自 GPT-2 以来,最先进的模型架构几乎保持一致。OpenAI 的 GPT 系列、谷歌的 PaLM、Meta 的 LLaMa、甚至特斯拉的 FSD 都是基于 Transformer。
Etched 联合创始人兼 CEO Gavin Uberti 表示:“当 ChatGPT 问世时,英伟达股票大涨,尤其是所有即将推出的 AI 模型都将成为 Transformer 时,我们才发现自己在正确的时间出现在了正确的地点。”
诚然如他所说,当模型的训练成本超过 10 亿美元,推理成本超过 100 亿美元时,专用芯片就是不可避免的了:在这种规模下,只要有 1% 的性能改进,都能证明成本为 5000 万至 1 亿美元的芯片项目是值得的。
全球第一款专为 Transformer 设计的专用芯片 Sohu
朝着这个方向,Etched 花了两年时间,打造出了全球第一款专为 Transformer 设计的专用芯片,名为 Sohu,并于昨日正式官宣:认识一下 Sohu,这是史上最快的 AI 芯片。
据 Gavin Uberti 介绍,Sohu 采用台积电的 4nm 工艺制造,只有 1 个核心,每张芯片配有 144GB HBM3E 高带宽内存,可提供比 GPU 和其他通用 AI 芯片更好的推理性能,且耗能更少、成本更低。
为了更直观地衡量 Sohu 的强悍性能,Gavin Uberti 把英伟达作为参照:
在运行文本、图像和视频转换器时,Sohu 的速度比英伟达下一代 Blackwell GB200 GPU 还要快一个数量级,且成本更低;700 亿参数 Llama 3 吞吐量能达到每秒 50 万 tokens;一台 8xSohu 服务器可取代 160 个 H100 GPU……对于需要专用芯片的企业领导者来说,Sohu 将是一个更经济、更高效、更环保的选择。
而之所以 Sohu 能实现如此性能,正是因为它的“专用性”:无法运行大多数传统的 AI 模型,如为 Instagram 广告提供动力的 DLRMs、AlphaFold 2 等蛋白质折叠模型、Stable Diffusion 2 等较老的图像模型,也无法运行 CNN、RNN 或 LSTM——专为 Transformer 设计,只能运行 Transformer。
基于这个特点,作为 ASIC 芯片的 Sohu 在设计之初就直接摒弃了与 Transformer 无关的硬件组件,极大简化推理硬件和软件管道,以此最大程度地提高性能。
Etched 在博文中提到,相较之下,通用 AI 芯片如英伟达的 H100,虽拥有 800 亿个晶体管,却只有 3.3% 用于矩阵乘法(大模型推理时最常见的运算):“这是英伟达和其他灵活的 AI 芯片有意为之的设计决策。如果你想支持所有类型的模型(CNN、LSTM、SSM 和其他),这种方案固然是最好的。”
Gavin Uberti 指出:“我们无法运行 CNN、RNN、LSTM 和其他 AI 模型,但对于 Transformer 来说,Sohu 就是有史以来最快的芯片,甚至没有竞争对手。”
Etched 能否打败英伟达?
对于能否打败英伟达这个问题,Etched 首席运营官 Robert Wachen 的回应如下:
“过去,AI 计算市场是分散的,人们使用不同种类的模型,如 CNN、DLRM、LSTM、RNN 和其他数十种跨领域的模型,每种架构的花费都在数千万到数亿美元之间,通用芯片(GPU)有着庞大的市场;但现在,市场正在迅速整合为一种架构:Transformer,那么专用芯片就是大势所趋。
我们的芯片在大多数工作负载上都无法击败 GPU,因为 Sohu 无法支持它们。但是,对于Transformer 专用芯片来说,我们将会占据这个市场。”
除此之外,Thiel Fellowship 主任 Alex Handy 也在一份声明中表示:“投资 Etched 是对 AI 价值的战略押注。他们的芯片解决了竞争对手害怕解决的可扩展性问题,也挑战了同行中普遍存在的性能停滞不前的现象。”
目前来看,Etched 受到业界的广泛关注和许多支持,但正如 Gavin Uberti 所说,这场豪赌还没有结束:“如果未来 Transformer 消失或被取代了,我们就会死;但如果他继续存在,我们就会是有史以来最大的公司。”
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。