专栏中心

EEPW首页 > 专栏 > 云原生研发突破,国际顶会认可!

云原生研发突破,国际顶会认可!

发布人:天翼云开发者 时间:2025-12-19 来源:工程师 发布文章

近日,由天翼云与中国电信云计算研究院联合完成的论文《gShare: Efficient GPU Sharing with Aggressive Scheduling in Multi-tenant FaaS platform》,获计算机系统领域国际顶级会议ASPLOS 2026长文收录。该研究面向AI智能应用场景,提出了一套针对GPU FaaS云函数的高效资源共享与调度机制,标志着天翼云在Serverless GPU的细粒度算力供给与多租户资源优化领域实现重要突破。

1-1.png

ASPLOS(International Conference on Architectural Support for Programming Languages and Operating Systems)是国际计算机体系结构四大旗舰会议之一,获中国计算机学会(CCF)最高推荐级别A类认证,在全球学术界与产业界享有极高声誉。本届ASPLOS夏季评审轮次共收到840篇投稿,仅录用89篇,录取率低至10%,论文质量与创新性要求极为严苛。此次联合研究成果成功入选,彰显了中国电信天翼云在“AI+云”融合创新上的前瞻布局与自主攻坚能力。

gShare GPU动态共享技术

破解Serverless场景GPU供给难题

随着大语言模型、AI智能体等应用加速落地,算力需求正呈现“泛在化、动态化、碎片化”新特征。传统云计算GPU资源供给模型普遍存在资源分配粒度粗、弹性不足、租户成本高等痛点,难以适应中小模型推理、边缘智能等场景对高性价比、灵活弹性的GPU算力需求。

天翼云公有云事业部与基础架构事业部,携手中国电信云计算研究院,基于目前流行的Serverless函数式编程范式,共同开展了面向AI智能应用的高效GPU云函数课题研究,并基于自研evGPU技术研发出面向多租户的低成本GPU函数共享调度系统gShare。该系统以微虚拟机作为安全隔离环境与函数运行载体,通过三大核心技术创新实现GPU资源的“时空动态”高效利用

01基于vGPU的细粒度算力分配——精确匹配用户资源需求

该系统底层设计采用近乎零开销的自研虚拟化技术,实现对VM到物理GPU设备间任意粒度的算力切片供给,租户函数实例可根据自身业务实际消耗按需申请vGPU资源,彻底告别传统GPU整卡独占的粗放模式,降低资源浪费。

02基于超售的资源定价与调度策略——释放用户函数闲置算力
该系统资源创新性地采用了GPU与CPU和内存资源管理的解耦设计,通过vGPU热插拔和快速显存交换技术,允许函数到GPU切片间映射关系的运行时动态调整,同时结合deadline感知的延迟调度设计以实现资源超售。租户可根据需要选择不同共享粒度并享受相应价格折扣,从而实现闲置GPU算力的高效回收利用和成本-性能最优平衡

03跨资源池的统一调度与管理架构——支撑泛在智能业务场景

该系统可适配包括TensorFlow Serving, PyTorch, vLLM, and SGLang在内的主流AI推理框架,其设计也天然兼容跨异构资源池的统一调度与管理架构,除可部署在传统的数据中心集中式GPU资源池之外,还能够部署在分布广泛、具有零散和碎片化资源的边缘分布式算力节点,为构建中国电信“中心-边缘”协同的分层多级泛在算力供给体系提供核心技术支撑。

1-2.png

基于vGPU重映射的动态共享GPU云函数设计

测试结果表明,gShare相关成果可显著提升Serverless平台内部的GPU资源利用率,降低企业采购与运营成本。同时,云租户可根据实际GPU共享力度享受对应的价格折扣,真正实现“用得省、用得好”。

目前,gShare相关研究成果已在天翼云函数计算产品中实现落地部署。依托中国电信的泛在云网基础设施与息壤算力互联调度平台,该技术可进一步拓展至边缘大模型推理、云游戏等边缘计算场景,实现从中心到边缘的全场景算力灵活供给。未来,天翼云将持续深化泛在算力与智能调度等领域的探索,通过提供无处不在、弹性高效、成本可控的AI算力,推动智能算力走向普惠,赋能各行业智能化转型。

[论文信息:Yanan Yang, Zhengxiong Jiang, Meiqi Zhu, Hongqiang Xu, Yujun Wang, Liang Li, Jiansong Zhang, Jie Wu. gShare: Efficient GPU Sharing with Aggressive Scheduling in Multi-tenant FaaS platform. International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS) 2026. Pittsburgh, USA. (Accepted)]


专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们

关键词: 云原生 天翼云

相关推荐

中国企业优化云原生投资的三大策略

风河被汽车Tier1巨头收购,把云原生技术带入汽车业

软件定义汽车、云原生驱动汽车设计业变革

如何采用云原生技术加速数字化转型

中国电信:成立云计算共同体,天翼云已成为全球最大运营商云

到2030年,AI与云原生转型将推动全球电信网络市场规模达到248亿美元

英特尔David Tuhy:以现代化基础设施持续赋能云原生数字化转型

云原生:边缘云端储存弹性化

云原生受众广泛,为新兴技术定策安邦铺平道路

2020年中国云计算市场十大预测:多云和云原生趋势渐成主流

云原生与安全左移驱动创新,IDC 2021年中国云工作负载安全市场份额报告发布

更多 培训课堂
更多 焦点
更多 视频

技术专区