"); //-->
近日,中国信息通信研究院(以下简称“中国信通院”)主办,混沌工程实验室承办的信息通信领域系统稳定性保障沙龙·北京站成功举办。沙龙以“共筑数字免疫韧性长城,助力信息通信行业稳定安全运行”为主题,旨在促进信息通信领域系统稳定性保障技术交流,推动信息通信领域稳定安全运行水平提升,加强“稳保”领域的先进技术和人才合作。会上,天翼云科技有限公司高-级运维专家尹磊以《天翼云分布式多场景云服务稳定性探索实践》为题发表演讲。
在应用全面上云的大背景下,云计算已经成为现代通讯系统的核心基础设施之一,其稳定性对于通信业务的正常运转至关重要。云服务作为部署在大规模硬件系统上的分布式软件系统,面向租户提供一系列的共享服务,其运行环境十分复杂。由于底层硬件存在一定的不稳定因素,如何在不稳定的环境中为用户提供稳定的服务,是云服务提供商所面临的一项重要挑战。
作为云服务国家队,天翼云探索出一套有效的稳定性保障体系并积极实践落地。围绕少出故障、不出重大事件、故障快速恢复、用户对故障无感知的目标,天翼云进行了分布式多场景云服务稳定性能力建设探索,率先以稳定性指标体系为牵引,以演练为有效验证手段,在可观可测、故障快速恢复、变更可信三大方面优先建设,构建了天翼云分布式多场景云服务稳定性保障能力的基础。
具体而言,天翼云为实现故障快速发现与精准定位,构建了“监”“测”“控”“观”“量”五位一体的立体化全链路可观测能力;在打造高效的故障处理与快速恢复能力方面,天翼云构建以SLO为目标的、基于正向的故障快速恢复能力;此外,变更风险是影响云服务稳定性的重大因素之一,针对可信变更,天翼云建立变更风险评估模型和规则,使变更风险的评估从依据个人经验变为依靠变更系统的功能。
高可用、高可靠、稳定安全的云服务能力建设,需要现网的效果反馈和不断迭代升级。天翼云构建了事前、事中、事后一体化的稳定性保障能力评价体系,推进稳保能力的正向建设与负向改进。同时,天翼云建设故障自动化注入的演练平台,通过演练场景、能力验证、效果复盘等步骤,来验证稳定性保障能力水平。
近年来,数字技术日新月异,信息化系统的重要性日益突显,系统稳定性成为企业顺利开展业务、实现可持续与高质量发展的关键。一直以来,天翼云为客户提供安全可信的产品和服务,并在稳定性保障体系建设方面走在行业前列,未来天翼云也将继续深耕云技术,通过提供更加稳定可靠的云服务,帮助企业构建起数字免疫韧性长城,护航企业行稳致远。
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
云计算在IC设计中的应用
打造可靠的云存储技术
由Memfault驱动的Nordic nRF Cloud荣获移动突破奖所颁发之年度云计算创新奖
仿人型机器人能同时流利地说15种语言
F5基于云计算平台的虚拟桌面连接解决方案
云计算掀起智能硬件变革的浪潮
云计算驱动联想持续创新
2016物联网大会宣传片
全球云计算市场迎来重大价格调整
传说中的云计算、云存储是不是和这东西有关?
美图获阿里巴巴2.5亿美元战略投资,将在AI与电商领域深度合作
基于云计算技术的日志管理系统
将AI工作负载推向边缘
Upwind筹集2.5亿美元以实现云安全规模化
Android云计算之移动点餐系统分析与设计
“英伟达亲儿子”CoreWeave提交IPO申请,去年收入暴涨8倍
今年五月份是汽车电子,测试测量和云计算三大热点!
消费电子云方案
软件安全成为嵌入式云计算的热点
基于云计算的元器件查找软件,包含海量在线数据库
应用于数据中心(DataCenter)的 Smarter Solution
云的数据安全与监控
云计算掀起智能硬件变革的浪潮
何为“云计算”
边缘计算与人工智能(Edge AI)如何引领新一轮技术革命
IT有明天:大转换中的云计算
消息称谷歌首款 AR 眼镜年内上市售卖,将在本周 I/O 大会发布
台积电AI产能:英伟达的需求可能迫使实现翻倍