一度宕机6小时 微软Azure虚拟机做出回应

据外媒报道,微软的Azure虚拟机服务于2021年10月13日05:12 UTC至11:45UTC期间遭遇了长达6个小时的中端,其中使用Windows虚拟机的Azure客户子集在执行服务管理操作时面临着各种问题,包括启动、创建、更新、删除虚拟机的众多操作均告失败,对Windows虚拟机有依赖性的服务也可能遇到类似的故障。


针对此事,微软也公布了初步调查结果:

我们发现在服务管理操作过程中调用失败,因为无法查询到所需的工件版本数据。我们的调查集中在后端计算资源提供者(CRP),以确定调用失败的原因,并确定无法从存储库中查询到所需的VMGuestAgent。VM Guest Agent Extension发布架构正在被迁移(作为传统服务管理后台系统迁移的一部分)到一个新的平台,该平台利用了最新的 Azure Resource Manager(ARM)功能。

缓解措施:我们通过将适当的扩展标记为正确的预期级别(在这种情况下是公开的)来减轻影响。工程师们主动验证了更新完成后,操作恢复到完全成功率。

接下来的步骤。我们将继续调查,以确定完整的根本原因,并防止未来发生。完整的根本原因分析(RCA)将在 72 小时内公布。”