史诗级事故!程序员操作失误,科技巨头被一键“删库”

世界就是个草台班子——最近科技巨头谷歌云用亲身行动再次佐证了这一论断。
5月9日,一个前所未有的事件震惊了全球金融科技界:由于谷歌云工程师操作失误,管理着800亿美元资产的投资公司UniSuper的整个云环境被删除,数十万的用户数据和资产记录被清空。
图片[1]-史诗级事故!程序员操作失误,科技巨头被一键“删库”-小师评
62 万会员无法访问自己的基金账户,UniSuper 控诉“这全怪谷歌云”
上周,澳大利亚养老金巨头 UniSuper 的服务器发生中断,导致会员无法在线访问服务器也无法登录移动应用程序,原因是“Google Cloud 出现了罕见问题,导致在配置 UniSuper 私有云期间无意中出现配置错误,影响了养老基金的二级系统”。说白了,就是该基金的 Google Cloud 账户被大规模删除,并且 Google Cloud 还删除了 UniSuper 在其他地方的备份数据。
如果不是在其他云上有备份,那此次 UniSuper 的整个云基础设施都将毁于一旦。
宕机时间大概持续了一周的时间,直到上周四,UniSuper 客户终于逐步迎来服务恢复。投资账户余额将能够反映这失落一周的数据,UniSuper 表示会尽快更新期间的内容。
Unisuper 是一个退休基金,为澳大利亚高等教育和研究部门的成员管理退休储蓄。该基金拥有 62 万名会员和 1250 亿澳元的资产,按会员数量排名澳大利亚第 13 位,按管理资产排名第 7 位。
由于 Unisuper 会员无法访问他们的账户,该基金必须从不同提供商的备份中恢复数据,因为此次删库影响了谷歌服务上存储的两个冗余实例。
事件发生后,UniSuper 基金负责人及 Google Cloud 全球 CEO 发表联合声明,二人就此次中断向会员们致歉,并表示如此情形“非常令人沮丧和失望”。
他们提到,此次中断源自配置错误所引发的 UniSuper 云账户意外删除,而这种情况在 Google Cloud 上从未发生过
二人指出,“Google Cloud CEO Thomas Kurian 已经证实,此次中断是由一系列史无前例的状况所引发,先是在交付 UniSuper 私有云服务期间意外包含错误配置,并最终导致 UniSuper 私有云订阅被删除。”
“这是一次孤立且「史无前例的事件」,以往全球任何 Google Cloud 客户都从未发生过这种情况。当然,这一切本不该发生。Google Cloud 已经确认此次中断的根源,并采取措施以确保同样的情况绝不会再次发生。”
UniSuper CEO Peter Chun 于周三晚间致信该基金的 62 万名会员,解释称此次服务中断并非由网络攻击所造成,且没有任何个人数据因服务中断而泄露。Chun 强调,谷歌的云服务才是引发问题的根源。
虽然 UniSuper 往往会在两个地理区域内部署重复服务,以确保如果其中一项服务发生故障或数据丢失,可利用另一项轻松恢复。但此次事件中该基金的云订阅被删除,而两个地区的备份也随之执行了删除。
UniSuper 最终之所以能够恢复服务,是因为该基金在另外一家云服务商处留有备份。UniSuper 表示:“ Google Cloud 并不是 UniSuper 使用的唯一云服务提供商,这一规划确保了我们恢复服务并最大程度地减少数据丢失的能力。”
“为了恢复 UniSuper 私有云实例,双方团队付出了极大的关注、努力及合作,最终实现了对全部核心系统的广泛恢复。”
“UniSuper 与 Google Cloud 的通力配合与不懈努力让我们的私有云得到广泛恢复,其中涵盖数百套虚拟机、数据库以及应用程序。”
截至 5 月 10 日,在 UniSuper 首席会员兼咨询官 Danielle Mair 向会员发送的电子邮件中显示,
UniSuper 会员已经可以在线登录他们的账户,查看他们的余额并查看他们账户的最新投资表现。但值得注意的是,显示的账户余额可能无法反映因中断而尚未处理的交易。
Danielle Mair 表示,他们的团队正在尽快处理交易,以尽量减少会员的延误。
目前尚不清楚到底是什么原因导致了这一事件,但 Google Cloud 反复强调,此次宕机不是由恶意行为或网络攻击引起的。但不得不注意到,对于此次宕机事故,谷歌到目前为止只是进行了抱歉,其他更细节的内容丝毫没透露。
图片[2]-史诗级事故!程序员操作失误,科技巨头被一键“删库”-小师评
耗时 6 个月迁移到谷歌云,不到一年账户全被删了
事实上,Unisuper 迁移到 Google Cloud 上的时间并不算长。
去年 6 月,据外媒报道,在云咨询公司 Kasna 的帮助下,Unisuper 已将所有非生产工作负载(包括约 1900 个虚拟机)从澳大利亚数据中心转移到 Google Cloud,并在去年 9 月份完成迁移,迁移时间总共为 6 个月。
据 UniSuper 称,该公司的 IT 设置由两个数据中心组成,一个位于墨尔本港,另一个位于维多利亚州米彻姆。有关这两个数据中心的具体细节尚未公布。
该公司还在 Microsoft Azure 中拥有云服务。2017 年,该公司在墨尔本港设施发生火灾后经历了一次宕机中断。最终,UniSuper 的计划是完全退出其企业数据中心。
Unisuper 已于 2023 年将大部分业务迁移到 Google Cloud 平台,此前曾将这些工作负载分配给 Azure 和自己的两个数据中心。此次迁移包括将所有非生产工作负载(包括 1,900 个虚拟机)转移到 Google Cloud。
当时,UniSuper 架构主管 Sam Cooper 告诉《ITNews》:“对我们来说,迁移到 Google Cloud 的关键吸引力是因为团队熟悉谷歌的技术,我们的底层就是 Google 引擎。”
该公司希望此次向云的迁移将使 UniSuper 能够快速扩展并满足潜在的业务增长机会。UniSuper 去年还收购了 Australian Catholic Superannuation,并希望增加有机和无机增长,也推动了这一举措。
“我们需要能够利用云提供商来快速做到这一点,并且能够以一种为我们提供适当风险缓解的方式做到这一点,” Cooper 说。
UniSuper 在选择云供应商时向 AWS、微软和谷歌进行了招标,最终选择了 Google 作为最佳匹配。该公司称不会将应用程序拆分和重建为云原生,这是一个重要的选择,因为有些应用程序还没有准备好采用云原生,这意味着 UniSuper 可以快速、安全地迁移到云以获得必要的可扩展性。
也就是说,Unisuper 才迁过来不到一年时间,就碰上了谷歌云“史无前例”的大宕机。
在宕机这件事上,没有一家云厂商能幸免
此次宕机事件后,5 月 11 日,Twitter 上一位宣称是 Google Cloud 澳大利亚云服务总监 Kenneth Dredd 表示自己已经被谷歌直接解雇。
我被谷歌裁员了。我之前是谷歌云计算服务澳大利亚区负责人,负责我们客户的数据显示。
我在上传一份报告到 UniSuper 账户时意外删除了数据,报告内容显示我们的算法在他们环境、社会和治理(ESG)披露中检测到了过于乐观的前瞻性声明。
我已经接受了谷歌慷慨的离职补偿,在 CEO 的祝福下,我将继续直接向澳大利亚证券和投资委员会(ASIC)追查绿色洗钱事件。
ps:绿色洗钱,也称为洗绿,指的是掩饰实际利益关系,通过合伙人、小股东、社会资金等形式将利益转移到私人领域而形成的非法投资或融资活动。这一术语源于 1998 年“马尔克斯事件”,即马尔克斯公司下属公司高管史柯廷利用该公司并购明尼苏达铁路公司的机会,通过洗绿来谋取私利。洗绿一词很快就在财经界、政界和社会上流行起来,以代表非法牟利的概念。
至于以后是否会继续使用 Google Cloud?UniSuper 首席会员兼咨询官 Danielle Mair 在邮件中表示,UniSuper 非常重视为会员提供可靠服务的责任。团队工作的重点是让系统快速、安全、可靠地重新上线。
与此同时,他们正在与 Google Cloud 密切合作,以完成完整的根本原因分析。Google Cloud 已确认这是前所未有的孤立事件,并且已采取措施确保此问题不会再次发生。UniSuper 将评估这一事件,并确保公司处于最佳位置,为会员提供服务。
对于 Danielle Mair 这样的回复,网友调侃,“他仿佛什么都说了,又好像什么也没说”。
图片[3]-史诗级事故!程序员操作失误,科技巨头被一键“删库”-小师评
事实上,云和其他网络中断时有发生,全球一些主流的云厂商(包括 AWS、Microsoft Azure 等)都曾经历过这些情况。例如,2023 年 6 月,AWS 发生了一场持续两个多小时的事件,影响了美国东海岸的多项服务。去年 9 月, 微软 Azure 在澳大利亚的数据中心也出现过宕机,导致用户无法访问 Azure、 Microsoft 365 和 Power Platform 服务超过 24 小时。
EIRTrend 和 Parekh Consulting 首席执行官 Parekh Jain 指出,这些问题通常会很快得到解决,但 UniSuper 的中断的持续这么长时间的确是个例外。从声誉的角度来看,这可能会损害 Google,并导致客户对该公司作为 CSP 缺乏信任。“当前澳大利亚 Google Cloud 上的 UniSuper 云中断需要非常长的时间才能解决,这对 Google Cloud 在该地区的声誉产生了负面影响,”他指出。
Jain 补充说,此类中断还可能导致客户业务中断和数据丢失,这就是为什么许多人倾向于采用多云策略进行风险管理。
参考链接:
https://www.theguardian.com/australia-news/article/2024/may/09/unisuper-google-cloud-issue-account-access
https://www.datacenterdynamics.com/en/news/unisuper-private-cloud-outage-caused-by-google-cloud-issues/
显然,这一事件给我们的启迪,不是如何谨慎的应对技术,如何完善系统,而是:在这个充斥着草台班子的世界里,做好备份,并且是多重备份和跨平台备份,才是最重要的。
© 版权声明
THE END
喜欢就支持一下吧
点赞53 分享