加速FPGA上的LLM推理
实现FPGA加速LLM性能
Speedster7t FPGA 在运行 Llama2 70B 参数模型时,与 GPU 解决方案相比表现如何?证据令人信服——Achronix Speedster7t FPGA 在处理大型语言模型(LLM)方面表现优异,通过提供计算能力、内存带宽和卓越能效的最佳组合——这些是当今大型语言模型复杂需求的关键特质。
像Llama2这样的大型语言模型的快速发展,为自然语言处理(NLP)开辟了一条新的道路,有望带来比以往任何时候都更接近人类的互动和理解。这些复杂的大型语言模型是创新的催化剂,推动了对先进硬件解决方案的需求,以满足其密集的处理需求。
我们的基准测试突出了 Speedster7t 系列应对 Llama2 70B 模型复杂度的能力,重点关注 FPGA 和 LLM 性能。这些测试(结果可索取)展示了Achronix FPGA为希望利用LLM强大功能应用于自然语言处理的开发者和企业的潜力。这些基准展示了Speedster7t FPGA如何超越市场,提供无与伦比的性能,同时降低运营成本和环境影响。
Llama2 70B LLM 在 Speedster7t FPGA 上
2023年7月,Microsoft和Meta发布了开源LLMLlama2,在AI驱动的语言处理领域树立了新先例。Llama2 设计了多种配置,以满足包括 7、13 和 700 亿参数在内的多种计算需求,使其处于 LLM 创新的前沿。Achronix和我们的合作伙伴 Myrtle.ai 对700亿参数的Llama2模型进行了深入的基准分析,展示了使用Speedster7t FPGA进行LLM加速的优势。
基准测试结果:Speedster7t FPGA 与行业领先 GPU 的比较
我们在Speedster7t FPGA上测试了Llama2 70B型号的推理性能,并与主流GPU进行了比较。该基准测试通过建模输入输出序列长度为(1,128)和批次大小=1来完成。结果显示Speedster7t AC7t1500在大型语言模型处理中的有效性。
FPGA成本基于由Speedster7t FPGA驱动的VectorPath加速卡的标价。同样,我们在本次分析中使用了同款GPU显卡的标价。利用这些成本信息和每秒产生的输出代币数量,我们计算出基于FPGA的解决方案每代币的200%提升。除了成本优势外,比较FPGA和GPU显卡的相对功耗时,我们观察到与基于GPU的方案相比,每枚令牌产生的千瓦时提升了200%。这些优势展示了FPGA如何成为一种成本效益兼备的大型语言模型解决方案。

LLM FPGA:Speedster7t 的优势
Achronix Speedster7t 系列 FPGA 旨在优化 LLM作,平衡 LLM 硬件的关键需求,包括:
高性能计算——配备高性能计算能力的尖端硬件对于管理LLM推理中核心的复杂矩阵计算至关重要。
高带宽记忆y——高效的LLM推断依赖高带宽内存,快速将数据传递至模型的网络参数中,避免瓶颈。
扩展和适应能力——现代大型语言模型推理需要能够随着模型规模增长扩展并灵活适应LLM架构持续进步的硬件。
节能处理——可持续的大型语言模型推理需要硬件,最大化计算产出,同时最小化能耗,以降低运营成本和环境影响。
Speedster7t FPGA 提供以下功能,以应对实现现代大型语言模型处理解决方案的挑战。
计算性能——支持其灵活的机器学习处理器(MLP)模块,处理复杂的LLM任务。
高 GDDR6 DRAM 带宽——确保拥有 4 Tbps 内存带宽的大型大型语言模型数据集的快速处理。
强大的GDDR6 DRAM容量——支持如Llama2等扩展型LLMs,每个FPGA容量为32 GB。
集成 LLM SRAM – 提供低延迟、高带宽存储,190 Mb SRAM,非常适合存储激活和模型权重。
多功能原生数字格式——支持块浮点(BFP)、FP16、bfloat16 等,适应大型语言模型(LLM)需求。
高效的片上数据传输——2D NoC速度超过20 Tbps,简化片上数据流量。
扩展带宽——满足LLM需求,配备32,112 Gbps的SerDes,提升连接性。
按键逻辑级可编程性——为快速的大型语言模型(LLM)发展做好准备,支持690K六输入LUT。
为LLM推断优化的FPGA系统
用FPGA代替GPU来加速LLMs,在AI和自然语言处理这一快速变化的领域中,这是一个相当新的想法。该基准测试展示了设计师如何从Achronix的FPGA技术中获益。Achronix Speedster7t系列FPGA是这一变革的关键技术,提供了高性能、高带宽内存、易于扩展和能效的良好平衡。基于这项详细的基准分析,比较了Speedster7t FPGA与领先GPU在处理Llama2 70B模型方面的能力,结果显示Speedster7t FPGA能够在大幅降低运营成本和环境影响的同时,实现高水平性能,凸显了其在未来LLM开发和应用中的重要作用。












评论