出品|三言财经
作者|嘴遁
今日凌晨,有众多网友在微博上反馈,阿里云疑似出现大规模故障情况。
一位微博网友表示,华北相当多的互联网公司都炸了,App、网站全部瘫痪,一大波程序员和运营、运维专员都从被窝爬起来去公司干活了。
另一位网友称,疑似阿里云华北2部分机器故障。
还有一位网友表示,数据库一直连不上,可能就是阿里那边的原因。也有网友抱怨道:阿里云越来越不稳定了啊!
一些受影响的网站和APP随即发布了故障说明公告,表示页面无法加载、APP卡顿、网站停止访问等都是因阿里云故障导致,有的还贴出了阿里云工程师给出的故障通知截图。
通过截图中的时间我们可以发现,阿里云方面在故障发生后1小时10分通知了该公司。
对于上述情况,阿里云官方凌晨回应称,华北2地域可用区C部分ECS服务器等实例出现IO HANG,经紧急排查处理后逐步恢复,此外将根据SLA协议尽快赔偿。
阿里云历次故障梳理
阿里云是国内最大的云服务商,服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。
然而,自2009年创立以来,阿里云已出现多次故障。
2012年10月30日,由于电力故障阿里云部分服务器30余分钟无法正常访问, 事后阿里云为此次因电力故障受影响的用户统一提供百倍赔偿。
2013年1月18日,阿里云机房发生临时故障,部分用户服务器无法访问,20分钟修复。1月23日,阿里云发生网络系统故障,OSS服务无法正常进行,故障持续长达6小时。
2014年11月14日,由于市政施工导致运营商光纤受损,阿里云杭州可用区D网络故障,具体影响ecs、rds、ocs等云服务半小时左右,受此事件影响,当天不少P2P平台网站无法打开。
2015年6月21日,一些使用阿里云香港数据中心的用户发现服务出了问题,服务中止12小时。此后,阿里云公告称由于运营商电力问题造成香港机房故障。
2015年9月1日,有多位用户在微博爆出运行在阿里云上的系统命令及可执行文件被删除,严重影响线上服务及运维。阿里云官方声明称,是由于云盾升级触发bug,导致少量文件被系统误删除。对于受影响的客户,将立即启动百倍时间赔偿,并避免类似失误再次发生。9月3日,阿里云云盾负责人吴翰清撰文阐述事件真相“工程师粗心大意写错一行代码”,并向受影响的用户道歉。
2016年7月6日,阿里云北京机房内网发生故障,导致大量互联网公司业务受到影响。阿里云工作人员表示,10点20分阿里云北京区开始出现故障,接近11点20分恢复正常。
2018 年 6 月 27 日,阿里云出现大规模访问异常,图片服务等产品无法正常使用,官网账号也无法登陆。
随后,阿里云正式发布通告称,于北京时间 2018 年 6 月 27 日 16:21 分左右,阿里云官网的部分管控功能,及 NAS、OSS 等产品的部分功能出现访问异常。阿里工程师正在紧急处理中。
次日凌晨,阿里云官方微博对此次故障道歉,表示“对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。 ”
同时发布官方说明,表示故障起因是上线一个新功能时,触发了一个Bug,导致部分产品访问链路不通。受影响范围包括阿里云官网控制台,以及面MQ,NAS,OSS等产品功能。
而根据网友的说法,这次故障的严重程度很高的,故障级别定义在S1级别,整个阿里集团的核心业务,以及依托阿里云的公司,很多都受了影响,其中就有阿里云、蚂蚁、天猫、飞猪、优酷等。
整体来看,自2012年以来,除2017年,阿里云每年都会出现故障,有时甚至非常严重,这令企业用户不得不担心,也给了竞争对手们生存的空间。
结语
云服务宕机时间过长,会给企业级用户造成巨大损失,关系着很多企业的生存,此外更影响着千万亿万普通用户的网络体验。
所谓能力越大,责任越大。还望国内的云服务能够越加稳定。
云服务,无小事。