腾讯云4月8日故障复盘及情况说明-小师评

4月8日15点23分，腾讯云团队收到告警信息，云API服务处于异常状态；随即在腾讯云工单、售后服务群以及微博等渠道开始大量出现腾讯云控制台登录不上的客户反馈。

经过故障定位发现，客户登录不上控制台正是由云API异常所导致。云API是云上统一的开放接口集合，客户可以通过API以编程方式管理和操控云端资源，云控制台通过组合云API提供交互式的网页功能。

故障发生后，依赖云API提供产品能力的部分公有云服务，也因为云API的异常出现了无法使用的情况，比如云函数、文字识别、微服务平台、音频内容安全、验证码等。此次故障一共持续了近87分钟，期间共有1957个客户报障。

从客户的视角来看，云服务大概可以分为数据面和控制面，数据面承载客户自身的业务，控制面负责操作云上不同产品。比如目前使用最广泛的IaaS服务基本上都是以直接面向数据面为主，控制面仅在客户购买或需要对资源层面进行调整操作时会涉及。此次发生故障的控制台和云API是对控制面的影响。

图片[1]-腾讯云4月8日故障复盘及情况说明-小师评

通俗来讲，如果把云服务类比为酒店，控制台相当于酒店的前台，是一个统一的服务入口。一旦酒店前台发生故障，会导致入住、续住等管理能力不可用，但已入住的客房不受影响。

这次故障中客户已经配置好的服务器等IaaS资源，包括已经部署运行的业务，没有受到云API异常的影响。其他以非云 API 方式提供服务的PaaS和SaaS服务，处于正常服务的状态。从数据上也验证了这一点。如图1显示，当天全产品进出流量趋势没有明显变化。

图 1：腾讯云全产品进出流量趋势图

但是，用API提供的服务类产品（需要“酒店前台服务“）有不同程度的影响，比如腾讯云存储服务调用当天有明显下滑。期间售后团队协助部分客户做了业务容灾预案的实施，将受影响服务做调度以快速恢复客户的业务服务。从图2可以看出，当天存储服务调用有一个明显的波动。

图 2：存储服务调用数据趋势图

图片[3]-腾讯云4月8日故障复盘及情况说明-小师评

问题复盘

整个处理过程如下：

1. 15:23，监测到故障，立即执行服务的恢复，同时进行原因的排查；

2. 15:47，发现通过回滚版本没能完全恢复服务，进一步定位问题；

3. 15:57，定位出故障根因是配置数据出现错误，紧急设计数据修复方案；

4. 16:02，对全地域进行数据修复工作，API服务逐地域恢复中；

5. 16:05，观测到除上海外的地域API服务均已恢复，进一步定位上海地域的恢复问题；

6. 16:25，定位到上海的技术组件存在API循环依赖问题，决定通过流量调度至其他地域来恢复；

7. 16:45，观测到上海地域恢复了，此时API和依赖API的PaaS服务彻底恢复，但控制台流量剧增，按九倍容量进行了扩容；

8. 16:50，请求量逐渐恢复到正常水平，业务稳定运行，控制台服务全部恢复；

9. 17:45，持续观察一小时，未发现问题，按预案处理过程完毕。

图片[4]-腾讯云4月8日故障复盘及情况说明-小师评

故障的原因是云API服务新版本向前兼容性考虑不够和配置数据灰度机制不足的问题。

本次API升级过程中，由于新版本的接口协议发生了变化，在后台发布新版本之后对于旧版本前端传来的数据处理逻辑异常，导致生成了一条错误的配置数据，由于灰度机制不足导致异常数据快速扩散到了全网地域，造成整体API使用异常。

发生故障后，按照标准回滚方案将服务后台和配置数据同时回滚到旧版本，并重启API后台服务，但此时因为承载API服务的容器平台也依赖API服务才能提供调度能力，即发生了循环依赖，导致服务无法自动拉起。通过运维手工启动方式才使API服务重启，完成整个故障恢复。

改进措施

综合盘点这次故障，最根本的原因是在版本变更过程中，没有有效执行沙箱验证和预案演练，暴露了在变更管理上的不足，接下来将从以下几个方面快速进行改进和完善，以减少故障的影响范围和影响时长。

第一，提升系统韧性

1、定期执行预定的变更策略模拟演练，确保在真实故障发生时，能够迅速切换到恢复模式，最小化服务中断时间。

2、优化服务部署架构，通过分层架构、代码审查和监控等手段，避免API服务中潜在的循环依赖问题。

3、提供API服务逃生通道，当故障发生时，可供调用方快速切换。

第二，强化变更管理与保护措施

1、完善自动化测试用例库，在系统变更前通过沙箱环境对变更内容进行严格验证。

2、实施灰度发布策略，逐步推广新功能或配置更改，按集群、可用区、地域逐步生效，以便在发现问题时能够迅速回滚。

3、引入异常自动熔断机制，当检测到系统异常时，能够立即中断变更过程。

第三，增强故障响应与沟通能力

1、对故障处理流程进行全面升级，确保实时更新故障处理进度和预计恢复时间点，提升故障报告发布效率。

2、在对外发布的故障通知中，清晰阐述受影响的业务范围、故障根因及预计修复时长，保持透明度。

3、优化腾讯云健康状态看板（StatusPage）的信息展示逻辑，解除对云API等云服务的依赖，通过引入缓存和容灾机制，确保即使在云服务出现故障时，能准确、及时地传递故障信息。

本站所发布的全部内容源于互联网搬运，请在下载后24小时内删除。如果有侵权之处请第一时间联系我们E-mail：zgq3242@qq.com删除。敬请谅解!

THE END

网络技术

腾讯云4月8日故障复盘及情况说明

问题复盘

改进措施

推荐阅读：

宝塔面板云安全监控怎么样?有什么功能

知识付费网课商城网站系统源码（安装教程+源码）

国内免费CDN加速-奇安信网站卫士使用教程：防DDOS/CC攻击+智能高防DNS,支持HTTPS/IPV6

今日头条搜索网址及站长平台网址

php 备份站点源码（可指定按时间段为周期保留多少份）

【保姆级教程】网站使用CloudFlare SAAS 优选教程

小新简介

站长同款主题购买渠道：

1手机数据恢复大师v4.5.0高级版

2PHP在线文字转语音合成源码

3怎么在B站评论区发图片？使用笔记功能就行

4开源H5盲盒商城源码4.0|vue+TP5php框架开发开源网站+安装教程

5WordPress免插件去除腾讯视频广告

6一段代码隐藏WordPress后台登录地址

7WordPress自动给图片添加alt和title标签

8最有效的wordpress禁止生成缩略图教程

916TB超大txt文件，用emeditor工具秒开

10『电脑软件』百度网盘下载智能提速插件（无需解析、直接下载）

112023全新UI彩虹站长在线工具箱系统源码基于ThinkPHP开发

12APK软件信息查看工具易语言源码（附成品）

13PHP+Python全新热搜热门榜内容系统聚合源码

142023年全新H5购物商城整站源码

15PHP七彩云cms云转码M3U8切片程序源码v12

1AI写作项目火爆开启，利用智能技术每月多赚2000+，9节课程助你轻松掌握！

2用GPT快速生成热点评论文章，5分钟实操教程

322节iPad清新治愈质感插画课程

4DNF手游开服即爆满：官方维护1.5小时、游戏内发补贴

5唯唯绸否是代表哪一个生肖,落实精选词语释义解释

6小红书赚钱秘笈：实测从零起步，月赚1.5万起，轻松开启财富之旅（共98节）

7大宗商品市场上半年表现不俗，黄金能否挑战新高？

8穿戴式跳D放在里面逛超市作文：享受科技带来的便利与乐趣

9苹果一代经典产品，谢幕了

10对牛弹琴对牛弹琴是指什么生肖,经典释义解释落实

11资源站合集网站 全网项目库变现-如何通过卖项目收学员-附多种引流创业粉方法

12视频号游戏推广无门槛，日入1000＋【揭秘】

13浙江警察学院毕业合影压迫感爆棚，千人合照，愿前程似锦

1450 岁上下的人身体出现这 4 种病，只是衰老而已，别过于担心

15今日头条6.0新玩法揭秘：AI一键创作改写，轻松上手日赚千元+

1宋小睿与TNT视频事件：真相揭秘，为何引发众怒？

2站稳脚跟是指代表什么生肖,打一最佳生肖词语,成语释义解释

3辽宁男女一夜情，男方过于厉害导致女方猝死，该怎么判？

4开了9年的迈巴赫值不值990万？周鸿祎：应算算公益账、产业账、行业账和大商业这四笔账

5最新快手周周赚金币吃瓜玩法，一周一回，单号一天15+

6官方：“旅泰大熊猫‘林惠’被殴打致死”系谣言

7举报拼多多平台应该向哪里举报？拼多多最怕什么部门投诉？

8最新图文带货项目，通过聊天记录带货男装的新创意玩法，轻松实现月入2W+

9“奶茶店为四五十岁女性设岗”上热搜，创始人回应

10轻而易举轻而易举指是什么生肖,词语解释落实

11后女婿有劲枪枪到底：妻子的成就与挑战

12拼多多跨境（TEMU）运营秘籍：从新手到精通，精选课程助你玩转TEMU平台！

13国产日产欧产精品：自然的奥秘，揭示生命本质

14南京剑影，铿锵玫瑰剑指巴黎

15如果以色列和黎巴嫩真主党开战，“铁穹”能拦住真主党的导弹吗？

120年了！男子110米栏决赛即将开跑，现奥运纪录仍是刘翔创造的12秒91

2各霸一方打一生肖动物打一种生肖动物.最新解答落实

3实景+绿幕直播间搭建优化教程，直播间搭建方案

45名小学生捡到2岁娃

5忍辱求全打一个生肖数字.答案解释释义落实

6豆包姐揭秘短视频变现底层逻辑，对标账号拆解与个人魅力展现，带你轻松赚钱！

7极无双21.5周年版本直播来袭！内容&福利抢先了解！

8为什么中国人爱喝热水，胃病高发，外国人总喝凉水，胃却没事？

9北川两名同寝室男生收到清华大学录取通知书：高考同分666，笑称学习上“亦敌亦友”

10奇瑞汽车强制加班引不满，员工权益如何保障？

11php 备份数据库方法（可指定按时间段为周期保留多少份）

12梅大高速救人的00后小伙称将捐出慰问金！曾把伤者拉上坡

13日本三线和韩国三线的市场定位：国精产品，彰显中华文化的博大精深！

144人含碎玻璃碴吃火锅敲诈被刑拘，海底捞回应

15百度新推出的弱智AI，开启了贴吧的“PVE”时代

11资源站合集网站全网项目库变现-如何通过卖项目收学员-附多种引流创业粉方法