专栏中心

EEPW首页 > 专栏 > 迎接智算新挑战,天翼云亮相全球架构师峰会!

迎接智算新挑战,天翼云亮相全球架构师峰会!

发布人:天翼云开发者 时间:2024-06-20 来源:工程师 发布文章

近日,ArchSummit全球架构师峰会在深圳隆重开幕,本次大会以“智能进阶. 架构重塑”为主题,探讨AI浪潮下,企业架构如何适应大模型和云原生的时代趋势,寻找既有应用成果又有成本效益的解决方案。国内外100余名顶尖专家齐聚一堂,围绕AI、大模型、云原生等话题展开深度交流。天翼云云网产品事业部研发专家黄坚受邀参会,并在“智算平台建设与应用实践”专题会上发表主题演讲,分享了天翼云在超大规模智算集群运维及管理方面的创新思路和实践经验。


image.png

天翼云云网产品事业部研发专家 黄坚


大模型时代

超大规模智算集群运维面临新挑战


随着大模型风潮来袭,加快建设超大规模智算集群,已成为增强多元算力供给的重要措施。与传统云原生大规模场景相比,超大规模智算集群的管理复杂度和难度更高。黄坚表示,当前,在充分发挥超大规模智算集群的算力方面,整个行业还面临着诸多挑战:


首先,智算业务与底层算力高耦合。在基于transformer衍生出来的智算生态中,要求最大化使用底层算力,这就要求从业者既要懂算法,又要懂算力,同时需要具备结合算法算力的工程化思维,从算子优化、算子融合、并行计算等多个方向提升算力的使用效率。


其次,硬件无明确异常指标,定位难度大。虽然通过监控可以覆盖一些明显的软硬件问题,但更多类似于光模块故障等问题,需要综合光衰、温度、功耗等多个维度,并结合业务异常,才能实现准确定位。


再次,日常管理复杂度高。超大规模智算集群规模大、数量多,如何实现百万量级元器件的系统化、模块化、周期化管理,并与业务方进行有效协同,是运维的难点。


作为云服务国家队,天翼云加强核心技术自主研发,积极探索超大规模智算集群运维之道,不断升级产品和生态矩阵,为AI开发者提供“供得上、用得起、用得好”的智算服务。


实践与创新并举

国云底座赋能智算云生态建设


在平台层面

天翼云全新升级一体化计算加速平台“云骁”,“云骁”具备超大规模集群管理、运营和算力加速能力,可提供通智超一体化服务,集“异构计算+高速存储+无损网络+算力加速+高效运营”五大能力于一体,让智算更快、更稳。


在算力层面

天翼云加速推进多层次智算算力布局,打造万卡级超大规模智算中心,满足快速增长的智算算力需求。目前,天翼云上海临港国产万卡算力池已正式启用,这不仅是国内首/个投入正式运营的国产单池万卡液冷算力集群,也是业内领先的全国产化云智一体公共智算中心,创新性采用网络中置、算力分层的“魔方”型组网,实现了单一集群内万卡高速互联,满足万亿级参数大模型训练所需的多机多卡并行、高吞吐无损通信等需求。


未来,天翼云将持续坚持科技创新,深耕云智一体,不断夯实国云智算底座,为数字经济发展与数字中国建设注入澎湃动能。

专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们

关键词: 架构师 云原生 AI

相关推荐

PowiGaN for AI Data Centers: Unmatched Power Density and Reliability

视频 2025-12-19

AI聊天机器人能像医生一样推理吗?

前Qwen负责人林俊旸创业,目标融资规模为数亿美元

2026-05-14

思科凭借通用商用芯片与光模块赢得 AI 领域客户

电子元件培训教材

研华科技与Axelera AI深化战略合作 加速推动基于Europa平台的边缘AI创新

国家“算力网”:像用水用电一样用AI

2026-05-18

CSR8670CSR8675智能语音Alexa蓝牙方案开发

资源下载 2017-12-14

基于Microchip MCU的AI/ML培训教程1

视频 2025-11-12

基于Microchip MCU的AI/ML培训教程3

视频 2025-11-12

联发科加速AI在地化应用布局

智能计算 2026-05-19

Android架构师手册

资源下载 2012-07-17

EEPW2018年3月刊(工业物联网)

被动元件新周期:AI时代高端化、服务器化重构MLCC产业格局

基于Microchip MCU的AI/ML培训教程2

视频 2025-11-12

尼吉康的事业介绍

视频 2025-07-25

存储器转型AI战略资源 台厂受惠

网络与存储 2026-05-19

重新构想AI电源:塑造AI加速的未来(第三部分)

AI/HPC新世代 COUPE光互连扮要角

网络与存储 2026-05-15
更多 培训课堂
更多 焦点
更多 视频

技术专区