最近,互联网企业云服务平台“崩溃”的新闻不绝于耳,先是阿里云遭遇了一场全球性故障,导致其各大产品线全部崩溃,这次故障规模之巨大、影响之深远,在云计算历史上堪称“史诗级事件”;随后滴滴服务器宕机,导致许多用户无法使用滴滴打车,一时引起网络热议;接着“腾讯视频崩了”又冲上热搜。
据不完全统计,2023年全国APP应用服务宕机的事件至少已有14起。接二连三的网络事故不仅让公众发出“大厂技术都靠不住”的质疑,更引发对网络安全、数据安全等的担忧。
APP崩溃除因访问量、流量激增带来的短暂崩溃外,最常见的三大原因是系统问题、云产品问题和网络异常。为什么今年以来出现这么多的云服务平台宕机事件,业界的一个共认观点是,许多企业在云平台的运维方面出现了问题。
业内人士表示,相关企业亟须重视其数据中心、云平台的安全管理。一方面要加强关键信息基础设施保护,重点研发数据安全、网络安全等技术,实现“以技术管控技术”;另一方面要加强人才储备,完善应急响应机制和故障预案演练,落实到每一个环节、每一步流程中,一旦发生状况能够在第一时间得到妥善解决。
经过十余年的发展,我国目前的互联网应用大都依托于云服务。各大APP在宣传自己的业务时都强调其云服务能力的强大。但今年以来,为什么这些“强大”的云服务平台接二连三出问题?业内人士的建议从反面说明了一个问题,就是这些云服务平台在技术能力和运维能力方面都出现了严重的问题。
在一些专业论坛上,许多行业人士直言不讳地指出,这些出现问题的云平台,一是技术上出现了短板,二是对IT运维不重视。软件系统是庞大而复杂的,没有丰富的技术积累、经验沉淀,很难做出稳定可靠的系统。但国内的一些公司,包括一些知名互联网企业,在技术研发上并没有大量“真金白银”的投入,重市场而轻技术。但随着互联网应用需求的“重度”不断加深,应用需求也越来越复杂化,技术支撑无法实现,短板问题就逐渐显现出来。此外,平台运维人员的严重短缺或者经验不足,也是造成云平台故障频繁发生的主要原因。一位技术专家分析认为,一个软件系统,从开发完成到上线运行,再到不断迭代,直至被替代或者废弃,是一个连续的长生命周期的过程。而许多互联网公司是按项目制来规划工作的,这就导致了同样一拨人,在一个项目完成上线后,项目组的人员就会被拆分整合成新的项目组,只留下少部分人保障系统运维,而且这些人还可能是新手。这样的人员配置,在出现问题的时候,就会乱了手脚,不知道怎么处理。
在电信领域,通信服务保障是按“5个9”的标准来要求的。而在互联网服务领域,虽然从一开始并不太强调这样的高标准,但随着云服务成为数字经济的基础设施,对云平台的服务要求也越来越高,因为这涉及千家万户的切身利益。因此,要高度重视云服务平台的运维服务问题。
一是要从监管上将云平台的服务纳入行业管理范畴。目前我们在云服务方面的监管更多关注的是数据安全和隐私保护,以及是否合规等问题。而对于云服务的质量问题,似乎并没有太多重视,按电信业务分类管理的标准,这些云服务平台是否应纳入到电信行业管理部门监管的范畴中?但目前的情况是,在发生上述APP崩溃的事件后,企业往往都是发一纸通告,花几天时间来恢复,很少听到监管部门的声音。
二是云服务运营平台要高度重视。正如上文所述,APP动辄“罢工”,根本原因还在于这些互联网公司在云平台运维上的不重视。但我们知道,电信运营商一直极端重视网络和支撑平台的运维。运营商网络和服务的复杂性一点也不次于这些互联网企业,而且更甚。在运维工作复杂度不断增加的情况下,运营商又是怎么做的——构建自智网络。国内的互联网企业不能再把市场试错的思维用在平台服务运维上,而应该在这一方面加大技术创新和人员投入。