英伟达推出开源推理软件Dynamo 为AI工厂降本增效
3月19日消息,英伟达在2025GTC大会上推出了开源推理软件 NVIDIA Dynamo,旨在以高效率、低成本加速并扩展 AI 工厂中的 AI 推理模型。
本文引用地址:https://www.eepw.com.cn/article/202503/468317.htm据介绍,NVIDIA Dynamo 是一款全新的 AI 推理服务软件,旨在为部署推理 AI 模型的 AI 工厂最大化其 token 收益。它协调并加速数千个 GPU 之间的推理通信,并使用分离服务将大语言模型 (LLM) 的处理阶段和生成阶段在不同 GPU 上分离开来。这使得每个阶段的特定需求可以进行单独优化,并确保更大程度地利用 GPU 资源。
“全世界各行业都在训练 AI 模型以不同的方式进行思考和学习,从而使模型复杂度持续升级。”NVIDIA 创始人兼首席执行官黄仁勋表示,“为了实现自定义推理 AI 的未来,NVIDIA Dynamo 可以在这些模型上进行规模化部署,从而为 AI 工厂实现降本增效”。
在 GPU 数量相同的情况下,Dynamo 可将 NVIDIA Hopper™ 平台上运行 Llama 模型的 AI 工厂性能和收益翻倍。在由 GB200 NVL72机架组成的大型集群上运行 DeepSeek-R1模型时,NVIDIA Dynamo 的智能推理优化也可将每个 GPU 生成的 token 数量提高30倍以上。
NVIDIA Dynamo 完全开源并支持 PyTorch、SGLang、NVIDIA TensorRT™-LLM 和 vLLM,使企业、初创公司和研究人员能够开发和优化在分离推理时部署 AI 模型的方法。
这将使用户加速采用 AI 推理,包括亚马逊云科技、Cohere、CoreWeave、戴尔科技、Fireworks、谷歌云、Lambda、Meta、微软 Azure、Nebius、NetApp、OCI、Perplexity、Together AI 和 VAST。
评论