这一波属实是「开猿节流,降本增笑」

昨天滴滴崩了,这是在阿里云崩溃的半个月之后又一次P0级(宕机几个小时)故障了,这也是最近一个月第三次大平台的P0级故障:
滴滴全产品线故障
首先滴滴这次故障影响相当之大,持续非常之久,从前天晚上10点一直影响到昨天早上9点。几乎全线产品线都出问题,打不到车,联系不到司机,访问 APP 就是502加载异常。
滴滴这次崩溃损失可谓非常大,预估损失千万订单量和超4亿成交额,滴滴的问题,据说是 Kubernetes 升级大翻车,这种惊人的恢复时长通常会与存储/数据库有关,合理推测根因是:不小心降级了 k8s master ,还一口气跳了多个版本 —— 进而 etcd 中的元数据被污染,最后导致节点全都挂掉,而且无法快速回滚。
更加神奇的是,滴滴今天在小程序发布道歉声明,并补偿所有用户10元优惠券,然后许多网友纷纷表示优惠券加载异常,无法领取。😂
阿里云和阿里系全线崩溃
半个月前(11月12日),双十一刚过,阿里就以阿里云直接崩溃来收尾,阿里系的钉钉,淘宝,闲鱼,语雀,高德地图等重磅应用全线崩溃,并且还影响到数以万计的客户,那些使用了阿里云OSS服务的公司,无一幸免。
距离上一次阿里云发生P0事故,还不到一年的时间,在去年的12月,阿里云香港地区就发生了严重的故障,导致服务中断了超过12小时,而现在一年时间都不到,又发生了类似事件。 
事后网友分析是:Auth因为配置失当挂了,推测根因是 OSS/Auth 循环依赖,一改错黑白名单就死锁了。
语雀严重故障

一个月前(10 月 23 日)下午两点左右,语雀发生服务器故障,在线文档和官网目前均无法打开。

这次事故是由于新的运维升级工具 bug 导致的:导致华东地区生产环境存储服务器被误下线。受其影响,语雀数据服务发生严重故障,造成大面积的服务中断。最后经过新建存储系统、数据恢复、数据校验、团队联调等过程,最终在 22 点恢复语雀全部服务,历时近8个小时。

图片[1]-这一波属实是「开猿节流,降本增笑」-小师评
图片来自阿里云2020年的活动,现在源网址已经下了 
https://cn.aliyun.com/sale-season/2020/smile

开猿节流,降本增笑

而这一年,互联网大厂的热点都是开源节流降本增效,大部分互联网公司都在裁员,搞得35岁以上的程序员都人人自危,即使没有被开源,也不能安下心踏实干活。

开源节流把干活的一线裁走了,写 PPT 的留下来,从上面这三个故障来看都是程序测试不够就上线造成的P0级的问题,开源节流降本增效的最后反而成了开猿节流,降本增笑。😓

不知道是否现在还能笑得出来!

© 版权声明
THE END
喜欢就支持一下吧
点赞99 分享