专栏中心

EEPW首页 > 专栏 > 降低传统路径依赖,华为推出AI推理新技术

降低传统路径依赖,华为推出AI推理新技术

发布人:ht1973 时间:2025-08-13 来源:工程师 发布文章

8月12日,华为在一场会议中对外推出AI推理新技术UCM(推理记忆数据管理器,Unified Cache Manager),这是一款以KV Cache和记忆管理为中心的推理加速套件,通过推理框架、算力、存储三层协同,优化Tokens在各业务环节中流转的效率,以降低每Token的推理成本。

华为公司副总裁、数据存储产品线总裁周跃峰在演讲中表示,AI时代,模型训练、推理效率与体验的量纲都以Token数为表征,Token经济已经到来。“但在一定时间内推理的Token数上,中国头部互联网公司与海外头部互联网公司仍有差距。”

根据华为会上公布的数据,国外主流模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),而我国普遍小于60Tokens/s(时延50 - 100ms),因此,如何解决推理效率与用户体验的难题迫在眉睫。目前,包括华为在内,各大科技企业都会在调度KV Cache基础上,研发优化推理过程的技术。

以高带宽内存(HBM)为例,在AI推理进程中,本应是数据顺畅流转的 “高速通道”,但现实是资源常常紧缺。一旦HBM资源不足,AI推理便会出现任务卡顿、响应迟缓等问题。UCM的研发方向主要在于不再单纯依赖HBM这一 “独木桥”,而是在存储层面构建起一个多层级、可灵活调配的资源体系,使得推理过程中的数据能够在不同存储介质间合理流动,充分利用各级存储的优势。

根据华为的测试验证,UCM可将首Token时延最高降低90%,系统吞吐最大提升22倍,实现10倍级上下文窗口扩展。

但从技术上看,尽管国内厂商在AI推理的硬件层面,如算力芯片等方面取得了一定进展,但在以KV Cache为核心的软件体系构建上,尚未形成完整、成熟且具有广泛适用性的解决方案。而在国外,已经有一些较为成熟的基于KV Cache的推理加速软件框架与工具,能够很好地与各类硬件平台适配。

华为在会上表示,希望联合产业界的力量,推进以记忆数据管理为中心的AI推理生态。

“目前业界缺乏一套在各种场景下都能普适适用的框架、加速机制与算法,我们希望通过将部分成果开放,促进框架厂商、存储厂商以及GPU厂商共同加速这一框架机制的成熟,最终解决当前AI行业落地过程中的效率与成本问题。”华为数据存储产品线AI存储首席架构师李国杰表示,华为计划在今年9月正式开源UCM。

中国信息通信研究院人工智能研究所平台与工程化部主任曹峰表示,“系统级的推理架构优化已经形成主流,但不是单点技术的突破,我们要从整个芯片级的、软件级的,再到上层的框架级的进行协同考虑,形成整个推理架构,这也是未来产业的发展重点。”


专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们

关键词: 半导体

相关推荐

2026 全球半导体产业冲刺 1 万亿美元规模

以全域AI数字孪生加速半导体与电子系统研发

2006全球半导体市场大会文字直播稿

美国加码芯片设备对华出口管控,条款现适度软化

二极管的小知识

资源下载 2007-02-16

AI 驱动估值飙升:光通信半导体企业市值暴涨

日本 7.7 级地震后,铠侠、东京电子、光刻胶厂商受关注,半导体供应链影响不一

西门子与台积电深化合作 携手推进 AI 赋能芯片设计

Omdia将2026年半导体市场增长预测上调至62.7%

日本地震影响电子产业原材料供应

视频 2011-03-21

HOLTEK 半导体问题解答集

Omdia大幅上调预期:2026年半导体行业增速飙升至62.7%

2026-04-29

PHILIPS 革新性的UART 解决方案

理解发展哲理 领悟发展走向——关于硅技术的思考

电容式触控IC解决方案及产品发展状况

视频 2009-12-21

大地震重创日本 台湾半导体产业受影响

视频 2011-03-21

集装箱式微型晶圆厂问世,有望推动半导体产业普惠化

2026-05-12

新一代的晶圆代工服务与你共赢新兴的中国半导体市场

视频 2009-12-21

便携式产品低功耗电路设计的综合考虑

东京大学研发反铁磁结构 实现 40 皮秒自旋存储开关

更多 培训课堂
更多 焦点
更多 视频

技术专区