华为推出 UCM 算法以减少对 HBM 的依赖,据报道将在 9 月开源
虽然当地媒体关注华为减少中国 HBM 对人工智能推理的依赖,但这家科技巨头在 8 月 12 日发布了 UCM(统一计算内存)——据我的驾驶和证券时报报道,这是一种人工智能推理突破,可大幅降低延迟和成本,同时提高效率。
值得注意的是,报道表明华为将在 2025 年 9 月开源 UCM,首先在 MagicEngine 社区推出,然后贡献给主流推理引擎,并与 Share Everything 存储供应商和生态系统合作伙伴分享。
UCM 的变革性功能
《证券时报》援引华为数字金融 CEO 曹健的话指出,高延迟和高成本仍然是当今 AI 推理开发面临的主要挑战。正如报道所指出的,目前国际领先模型实现了单用户输出速度为每秒 200 个 token(5 毫秒延迟),而中国模型通常低于每秒 60 个 token(50-100 毫秒延迟)。
根据报道,华为将 UCM 描述为一个以 KV(键值)缓存技术为核心的 AI 推理加速工具包。该系统据说结合了多种缓存优化算法,以智能管理 AI 处理过程中产生的 KV 缓存内存数据。这种方法扩展了推理上下文窗口,实现了高吞吐量、低延迟的性能,同时降低了每个 token 的推理成本,报道补充道。
证券时报报道,UCM 根据内存热模式自动将缓存数据分配到 HBM、DRAM 和 SSD 存储中。据报道,该系统通过结合多种稀疏注意力算法,优化计算和存储协调,在长序列场景中提供 2-22 倍更高的每秒令牌数(TPS),同时降低每个令牌的成本。
另一方面,据报道,华为官员解释说,在多轮对话和知识搜索应用中,该系统直接访问之前存储的数据,而不是重新计算所有内容,将初始响应延迟减少高达90%。
降低对 HBM 的依赖
根据 EE Times China 的报道,华为的新技术不仅提高了 AI 推理效率,还可能减少对 HBM 内存的依赖,提升国内 AI 大模型推理性能,并加强中国的 AI 推理生态系统。
EETimes China 报道,自 2025 年 1 月 2 日起,美国禁止向中国出口 HBM2E 及更高等级的 HBM 芯片。该禁令不仅涵盖在美国制造的 HBM 芯片,还包括使用美国技术在国外生产的芯片。
华为在 AI 推理方面的突破并非新事。据报告,该公司已取得多个里程碑,包括与北京大学合作开发的 DeepSeek 开源推理解决方案,以及在其 Ascend 平台上实现的数项性能提升。此外,华为与科大讯飞的合作伙伴关系取得了显著成果,使 MoE(专家混合模型)在大规模专家分布方面得以在国产计算基础设施上实现,推理速度提升三倍,响应延迟减半,报告补充道。
评论