昨天,微软的多项核心服务(包括 365、Exchange Online、Teams 和 Outlook)再次遭遇全球性的大规模中断,用户随后在社交媒体上报告了一系列问题,如无法发送邮件、网站崩溃及出现错误页面。在事故发生的6小时内,Downdetector已经收到了数千份报告,受影响的用户表示他们还遇到了连接其他服务的问题,包括OneDrive、Purview、Copilot以及Outlook Web和Desktop。
微软承认确实存在该问题,并在 X 平台发布声明称,正在回滚相关变更并调查其他可能的缓解措施。微软同时指出,部分用户在访问 Exchange Online 和 Microsoft Teams 日历功能时遇到障碍,并已在状态页面上列出受影响的服务和使用场景。
这不禁让很多用户再次回忆起“微软全球蓝屏”事件,虽然此次服务中断事件影响远小于“蓝屏事件”,但涉及的服务依然对用户的日常工作和通信产生重大干扰。微软表示,将继续努力解决问题,并确保服务尽快恢复正常。
微软表示,“虽然我们继续努力缓解问题,但已经在更多信息部分添加了受影响的服务和场景的综合列表。”最终,在这起故障持续11个小时后,仍未完全解决,于是微软选择手动重启服务器。
在管理中心的事件报告中,微软确认该中断阻止客户通过网页版Outlook、Outlook桌面客户端、具象状态传输(REST)和Exchange ActiveSync(EAS)访问Exchange Online。该公司还表示,一些客户可能在Microsoft Fabric、Microsoft Bookings和Microsoft Defender for Office 365中执行操作时遇到问题。
虽然Remond只分享了中断是由“最近的更改”引起的,但微软在故障11个小时后,选择在受影响的基础设施上部署了修复程序,重新启动了受影响的系统。
微软称,“我们已经开始部署修复程序,目前正在受影响的环境中推进。在此过程中,我们开始对一部分处于不健康状态的机器进行手动重启。我们正在监控修复程序的进展,该修复程序已部署到大约60%的受影响环境中。我们正在继续对剩余受影响的机器进行手动重启。”
截止到25日12点33分( EST ),根据微软的说法,部署的修复程序尚未导致完全的服务恢复。“修复程序已部署90%,根据遥测数据,服务可用性正在恢复。完成修复的预计时间尚不清楚。正在进行目标服务器重启,以解决路由服务问题,优先考虑当前处于工作时间或开始工作日的客户。 ”
18点25分( EST ),微软分享了此次事件的更多信息,称事故是由“一个导致通过服务器路由的重试请求数量激增的更改引起的,影响了服务可用性。我们的团队正在积极执行后续行动,并将根据需要启动额外的工作流,以完全解决问题。感谢您的耐心,我们将努力恢复全部功能。 ”
本文为 独立观点,未经允许不得转载,授权请联系FreeBuf客服小蜜蜂,微信:freebee2022