查看原文
其他

阿里云的工程师要被祭天了?

屠敏 CSDN 2018-07-23

那边刚根据美国市场研究机构 Synergy Research Group 的数据,阿里巴巴云计算业务赶超了 IBM,成为全球第四大云基础设施及相关服务的提供商,然后这边的阿里云就挂掉了。

昨天下午 16:30 左右,朋友圈、微博等地方受到众多网友的刷屏,原因是纷纷吐槽阿里云控制台访问出现故障,导致官网时好时坏,后台直接登录不上,其中图片服务器也挂掉。


影响范围


受影响的可不止阿里巴巴自家的淘宝天猫,毕竟如今作为全球领先的云计算服务平台,这一故障,直接导致了国内半个互联网瘫痪。

对此,不少网友怨声载道:

阿里云的函数计算挂了,导致线上故障。打算马上降级到本地计算,结果阿里云的 Kubernetes 也挂了。想着挨个机器手工改一下,发现 OSS 也挂了...整个过程没有报警,因为 SLS 也挂了...

最怕就是在上线交差的时候出现了 Bug。

随后,阿里云正式发布通告称,于北京时间 2018 年 6 月 27 日 16:21 分左右,阿里云官网的部分管控功能,及 NAS、OSS 等产品的部分功能出现访问异常。阿里工程师正在紧急处理中。


现状


而对于这次故障,阿里云表示已经在昨天下午 17:30 陆续修复恢复正常,并于凌晨 12:54 发布声明表示:没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。

至于具体的原因,阿里云称:

当天下午,工程师团队在上线一个自动化运维新功能中,执行了一项变更验证操作。这一功能在测试环境验证中并未发生问题,上线到自动化运维系统后,触发了一个未知代码bug。错误代码禁用了部分内部IP,导致部分产品访问链路不通。 后续人工介入后,工程师团队快速定位问题进行了恢复。

受影响范围包括阿里云官网控制台,以及MQ、NAS、OSS等产品功能。

写在最后


每一次的故障确实不应该发生,但有时又难以避免。对此,不少网友表示,理解身为同行的程序员们,解决问题比解决人更重要。

但是也有不少人认为:

出了故障可以原谅,那客户的损失该如何算?

如果是没按规范操作导致的事故肯定是要处罚的,否则这次事故的复盘就是无价的经验啊。

技术人员肯定得背故障啊,但是这事应该要升级,不是说一个技术人或者开除就算了的。

对此,你怎看呢?

 征稿啦!

CSDN 公众号秉持着「与千万技术人共成长」理念,不仅以「极客头条」、「畅言」栏目在第一时间以技术人的独特视角描述技术人关心的行业焦点事件,更有「技术头条」专栏,深度解读行业内的热门技术与场景应用,让所有的开发者紧跟技术潮流,保持警醒的技术嗅觉,对行业趋势、技术有更为全面的认知。
如果你有优质的文章,或是行业热点事件、技术趋势的真知灼见,或是深度的应用实践、场景方案等的新见解,欢迎联系 CSDN 投稿,联系方式:微信(guorui_1118,请备注投稿+姓名+公司职位),邮箱(guorui@csdn.net)。


————— 推荐阅读 —————

点击图片即可阅读

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存