2023年3月5日晚20:20左右,许多网友表示在使用B站时,手机和电脑端都无法访问视频详情页,且手机端无法查看收藏夹与历史记录。
8月4日晚间,距离上次事故5个月后,又有许多网友反馈B站图片(视频封面)无法加载、视频无法打开、视频一直在缓冲。
2023年 3月29日,“唯品会崩了”登上热搜,由于崩溃时间太长,影响了很多消费者无法正常下单。
6月5日,唯品会发布处理公告,将此次故障判定为最高级别的P0级故障,对应部门的直接管理者承担此次事故责任,基础平台部负责人予以免职作相应处理。
2023年5月24日,微软Azure DevOps在巴西的一处scale-unit发生故障,导致宕机约10.5 个小时,导致该中断的原因为一个简单的拼写错误,最终导致17个生产级数据库被删除。
2023年6月8日,中国电信的网络和通信服务出现无信号等失灵现象,绝大部分反馈的用户都在广东区域,疑似广东省内故障,历时4个小时左右,广东省内电信网络全面恢复。
故障原因及处理过程
10 月 23 日下午,服务语雀的数据存储运维团队在进行升级操作时,由于新的运维升级工具 bug,导致华东地区生产环境存储服务器被误下线。受其影响,语雀数据服务发生严重故障,造成大面积的服务中断。
为了尽快恢复服务,我们和数据存储运维团队全力进行数据恢复工作,但受限于恢复方案、数据量级等因素,整体用时较长。
具体过程如下:
- 14:07 数据存储运维团队收到监控系统报警,定位到原因是存储在升级中因新的运维工具 bug 导致节点机器下线;
- 14:15 联系硬件团队尝试将下线机器重新上线;
- 15:00 确认因存储系统使用的机器类别较老,无法直接操作上线,立即调整恢复方案为从备份系统中恢复存储数据。
- 15:10 开始新建存储系统,从备份中开始恢复数据,由于语雀数据量庞大,此过程历时较长
- 19:00 完成数据恢复;同时为保障数据完整性,在完成恢复后,用时 2 个小时进行数据校验;
- 21:00 存储系统通过完整性校验,开始和语雀团队联调,最终在 22 点恢复语雀全部服务。用户所有数据均未丢失。
语雀团队声称,“通过这次故障我们深刻认识到,语雀作为一款服务千万级客户的文档产品,应该做到更完善的技术风险保障和高可用架构设计,尤其是面向技术变更操作的‘可监控,可灰度,可回滚’的系统化建设和流程审计,从同 Region 多副本容灾升级为两地三中心的高可用能力,设计足够的数据和系统冗余实现快速恢复,并进行定期的容灾应急演练。只有这样,才能提升严重基础设施故障时的恢复速度,并从根本上避免这类故障再次出现。”
为此,语雀团队制定了如下改进措施:
- 1、升级硬件版本和机型,实现离线后的快速上线。该措施在本次故障修复中已完成;
- 2、运维团队加强运维工具的质量保障与测试,杜绝此类运维 bug 再次发生;
- 3、缩小运维动作灰度范围,增加灰度时间,提前发现 bug;
- 4、从架构和高可用层面改进服务,为语雀增加存储系统的异地灾备。
语雀团队表示,为了表达歉意,团队将向所有受到故障影响的用户提供如下赔偿方案:
- 针对语雀个人用户,我们赠送 6 个月的会员服务。操作流程:进入工作台「账户设置」,点击左侧「会员信息」,在会员信息页面点击「立即领取」,即可获得赠送服务。
- 针对语雀空间用户,由于情况比较复杂,我们会单独制定赔偿方案。请空间管理员留意语雀站内信。
11月12日晚间,中国市场份额排名第一的阿里云崩溃了,和以往相比,这次崩溃的时间点有点特殊。
一、此次崩溃,阿里巴巴集团新团队刚刚上任两个月,就出现了如此重大的事故。
二、10月31日,阿里巴巴新任董事会主席蔡崇信刚刚“表扬”完阿里云,刚过了十一天,就出现了大问题。
三、本次崩溃出现在“双十一”第二天,阿里巴巴旗下各集团以及使用阿里云服务的很多公司业务都异常繁忙,但阿里云崩溃了。
有人说,阿里云崩溃,只是一次技术问题,实则不然。
云计算被称为数字经济乃至全社会重要的基础设施。蔡崇信此前表示,阿里巴巴就希望让计算成为像水和电一样的公共服务。
毫不夸张的说,阿里云崩溃,对于互联网企业来说,就有点类似于国家电网停电,天然气公司断气、自来水公司停水。
因为云服务的重要性,曾有人建议,应该让国企来提供服务。不过,阿里云目前在国内是“巨无霸”式的存在。
蔡崇信在10月31日举行的2023云栖大会上介绍说,目前全国80%的科技企业和超过一半的AI大模型公司跑在阿里云上。包括10月闭幕的杭州亚运会核心系统100%跑在云上。
7月21日,阿里巴巴发布的2023财年年报显示,阿里云营收达到772.03亿元,占公司整体营收的9%。阿里云目前是全球第三、亚太第一的云计算公司。
2023财年,阿里云服务全球400多万客户,包括80%的中国科技创新企业、60%的国家级专精特新“小巨人“企业。阿里云的服务覆盖油气、电力、交通、金融、酒旅、企服、通信等实体产业。
本次阿里云崩溃,旗下淘宝、闲鱼、阿里云盘、饿了么、钉钉在内的多款产品均出现了服务器故障问题。
还有网友称,智慧笑联APP因为受到阿里云服务影响也不能使用。“就连充电桩和学校里的洗衣机、饮水机机器都‘崩’了。”
由此可见,阿里云的崩溃绝不简单,小到某个互联网公司无法运行,大到关系国计民生的项目无法正常运转。
2023年2月,推特严重宕机,马斯克暴怒,因其关于超级碗的推文曝光度不如美国总统,深夜紧急召集约80名员工解决算法问题。
3月份,因一名工程师修改配置导致推特出现严重的宕机故障,马斯克扬言要将这堆“shit code”全部进行重构。
2023年11月8日晚22点左右,OpenAI旗下ChatGPT及相关API出现中断故障,导致面向用户和开发者的服务近2小时无法正常使用。
随后OpenAI CEO公开致歉称,本周发布的新功能遇到远超预期的使用量,由于负载的原因,短期内可能会出现服务不稳定的情况。
2023年11月27日晚间,滴滴因系统故障导致App服务异常,不显示定位且无法打车;11月28日早间,滴滴出行称网约车等服务已恢复,骑车等在陆续修复中。
11月29日,滴滴再次发文致歉,称初步确定事故起因是底层系统软件发生故障。
这次事故发生时,上海、北京、广州等多地滴滴用户反馈,滴滴出行 APP 无法使用,地图无法加载。有网友称,使用滴滴呼叫了网约车后,APP 突然无法使用,司机找不到乘客。有网约车司机在社交平台表示,正在送乘客途中,出现导航无法使用,地图无法加载等情况。
编程严选网(www.javaedge.cn),程序员的终身学习网站已上线!
如果这篇【文章】有帮助到你,希望可以给【JavaGPT】点个赞👍,创作不易,如果有对【后端技术】、【前端领域】感兴趣的小可爱,也欢迎关注?????? 【JavaGPT】??????,我将会给你带来巨大的【收获与惊喜】💝💝💝!