以下文章来源于前端充电宝?,作者CUGGZ
2023 年,互联网世界日新月异,线上应用已成为我们生活中不可或缺的一部分。然而,在这一年里,一系列令人咋舌的线上事故频频发生。“XXX 崩了” 成为热搜常客。这些事故不仅给用户带来了不便和困扰,也暴露出线上服务在稳定性、安全性和应对突发事件的能力方面存在的问题。
本文将盘点 2023 年的十大线上事故,以期为未来的线上服务提供借鉴和警示。
3 月 5 日晚,B 站出现服务器故障,网页端和移动端的视频均无法加载,转发的视频链接显示“资源失效”。
?
受影响的主要是“番剧”和“影视”页面,用户反映“追番一直提示获取视频内容失败”、“显示页面加载失败”、“看番看一半加载不出来”。还有用户反映,首页能够加载,但全部是繁体字。
?
6 月 28 日,不少用户反应“B 站崩了”,该词条随后上了热搜。用户反映“追番一直提示获取视频内容失败”“显示页面加载失败,你们也这样吗?”“看番看一半加载不出来,我以为我的网有问题”。
该问题持续了一个多小时才被解决。
3 月 29 日凌晨,大量网友称微信、QQ 等腾讯旗下社交软件出现功能异常。微信包括语音呼叫、账号登录、朋友圈以及支付在内的多个功能无法正常使用,QQ 文件传输、QQ 空间、QQ 邮箱等也同样出现问题。
?
腾讯客服对此回应称,由于系统故障,部分用户使用微信支付相关功能出现异常,目前正在紧急修复中。用户资金安全不受影响。故障修复后,相关功能使用将恢复正常。
?
此次事故是由广州电信机房冷却系统故障导致,腾讯将其定义为公司一级事故。
事后,工信部通信管理局就微信“3.29 事件”约谈了腾讯相关人员,听取了情况汇报,并要求腾讯公司进一步健全安全生产管理制度、落实网络运行保障措施,坚决避免发生重大安全生产事故,切实提升公众业务安全稳定运行水平。
?
12 月 3 日, 腾讯视频突然没有会员了。
?
对此,腾讯视频官方微博回应:目前腾讯视频出现了短暂技术问题,我们正在加紧修复,各项功能在逐步恢复中。感谢您的耐心等待,由此给您带来的不便我们深感歉意。
?
3 月 29 日,“唯品会崩了”登上微博热搜。唯品会对此进行了回应:
?
事后,唯品会发布了一份处理公告,将 329 机房宕机故障判定为 P0 级故障。官方在公告中称,此次南沙机房重大故障影响时间持续 12 个小时,导致公司业绩损失超亿元,影响客户达 800 多万。唯品会表示,决定对此次事件严肃处理,对应部门的直接管理者承担此次事故责任,基础平台部负责人予以免职做相应处理。
5 月 24 日,网友反映 Boss 直聘崩了。随后 Boss 直聘回应称:今日上午部分用户使用 boss 直聘 pc 端时,部分功能出现异常,经过紧急抢修,目前已恢复。
7 月 6 日,许多用户打开 BOSS 直聘,发现页面中显示“系统服务错误”,无法正确切换身份。还有网友表示,正和求职者聊着,要马上约面试了,结果就崩了。BOSS 直聘也于当天发布消息称,“7 月 6 日上午,BOSS 直聘 APP 出现短时间服务异常,经过团队抢修已恢复正常。期间为用户带来的不便我们深表歉意。我们将持续优化服务保障。感谢大家一直以来的关注与支持”。
9 月 15 日,“BOSS 直聘”突然崩溃,许多用户无法刷新页面,无法查看新的招聘信息,甚至无法进行聊天交流。
在社交媒体上,一位自称是 BOSS 直聘员工表示,金九银十是招聘旺季,2023 年 9 月 15 日 10 点 15 分 26 秒,在线统计超过 4700 万人在刷 BOSS 页面,目前服务器超荷载,正在维护,找工作的人比国庆买票的人还着急。
BOSS 直聘回应称,关注到一张网传截图。服务器崩了,是真的。技术要改进,是真的。网传的数据,是假的。请大家不信谣,不传谣。据最新数据,每月使用 BOSS 直聘的用户,4360 万人。”
?
10 月 23 日,蚂蚁金服旗下的在线文档编辑与协同工具语雀发生了前所未有的 P0 级事故,导致平台无法正常访问和使用,持续了近 8 个小时(14:10 至 21:45)
?
事后,语雀给出了故障原因及处理过程:
10 月 23 日下午,服务语雀的数据存储运维团队在进行升级操作时,由于新的运维升级工具 bug,导致华东地区生产环境存储服务器被误下线。受其影响,语雀数据服务发生严重故障,造成大面积的服务中断。为了尽快恢复服务,我们和数据存储运维团队全力进行数据恢复工作,但受限于恢复方案、数据量级等因素,整体用时较长。具体过程如下:
14:07 数据存储运维团队收到监控系统报警,定位到原因是存储在升级中因新的运维工具 bug 导致节点机器下线;
14:15 联系硬件团队尝试将下线机器重新上线;
15:00 确认因存储系统使用的机器类别较老,无法直接操作上线,立即调整恢复方案为从备份系统中恢复存储数据。
15:10 开始新建存储系统,从备份中开始恢复数据,由于语雀数据量庞大,此过程历时较长
19 点完成数据恢复;同时为保障数据完整性,在完成恢复后,用时 2 个小时进行数据校验;
21 点存储系统通过完整性校验,开始和语雀团队联调,最终在 22 点恢复语雀全部服务。用户所有数据均未丢失。
以及改进措施:
通过这次故障我们深刻认识到,语雀作为一款服务千万级客户的文档产品,应该做到更完善的技术风险保障和高可用架构设计,尤其是面向技术变更操作的“可监控,可灰度,可回滚”的系统化建设和流程审计,从同 Region 多副本容灾升级为两地三中心的高可用能力,设计足够的数据和系统冗余实现快速恢复,并进行定期的容灾应急演练。只有这样,才能提升严重基础设施故障时的恢复速度,并从根本上避免这类故障再次出现。为此我们制定了如下改进措施:
升级硬件版本和机型,实现离线后的快速上线。该措施在本次故障修复中已完成;
运维团队加强运维工具的质量保障与测试,杜绝此类运维 bug 再次发生;
缩小运维动作灰度范围,增加灰度时间,提前发现 bug;
从架构和高可用层面改进服务,为语雀增加存储系统的异地灾备。
并针对语雀个人用户,赠送了 6 个月的会员服务。
11 月 12 日 17 时左右,阿里云突然出现事故,导致阿里云、淘宝、闲鱼、钉钉等几乎阿里全系应用都出现了问题。19 时 20 分左右,经工程师紧急处理,阿里旗下淘宝、钉钉、阿里云盘等应用已全面恢复。
?
据统计,这次异常的影响范围涉及 API 网关、视频点播、运维事件中心在内的 100 多个产品,北京、硅谷、伦敦等 25 个地域受影响。
事后,阿里云并未对外公布事故原因。不过网上流传着一份事故报告,仅供参考:
?
11 月 27 日晚,滴滴出行出现系统崩溃,至 28 日修复,崩溃时间长达 12 小时。11 月 29 日,滴滴公布了此次超长时间系统故障的致歉声明。初步调查结果显示,这起事故的起因是底层系统软件发生故障,并非网传的“遭受攻击”。
?
这次事故发生时,上海、北京、广州等多地滴滴用户反馈,滴滴出行 APP 无法使用,地图无法加载。有网友称,使用滴滴呼叫了网约车后,APP 突然无法使用,司机找不到乘客。有网约车司机在社交平台表示,正在送乘客途中,出现导航无法使用,地图无法加载等情况。
?
12 月 19 日,不少网友反馈,喜马拉雅 App 出现崩溃状况,无法正常使用或聆听节目。随后,喜马拉雅官博发文致歉,称目前已紧急修复,不会影响用户的会员等权益。
?
11 月 8 日 22:00 开始,不少网友反馈 OpenAI 的 ChatGPT,包括 API 都无法正常使用。OpenAI 出现故障的时间大约持续了 100 分钟,
?
事后,OpenAI 也已经把这回的故障,定性为了「严重停机」(Major Outage)。OpenAI 表示发现一个问题,导致 ChatGPT 和 API 错误率很高,正在努力解决。直到 23:33,OpenAI 表示确定并实施了修复方案,服务逐渐恢复正常。
?
OpenAI CEO 奥特曼表示,devday(开发者大会)新功能的使用情况远远超出预期,公司原计划周一为所有订阅者启用 GPT,但仍未能实现。由于负载的原因,短期内可能会出现服务不稳定的情况。
?
12 月 21 日,国外知名社交平台 X(原推特)遭遇突发崩溃事故。许多用户反映无法正常加载页面、浏览个人资料、查看粉丝列表等操作,该社交平台几乎处于瘫痪状态。
这已是 X 平台今年第二次大规模宕机事件。早在今年 3 月,该平台便经历了一次全球性中断。自 440 亿美元收购后,马斯克对其进行了大幅裁员,裁员幅度接近 80%,其中包括许多负责修复和防止服务中断的工程师。