Azure sofre interrupção global de quase oito horas
Clientes que usam máquinas virtuais e outros serviços da Microsoft Azure observaram falhas ao executar operações de gerenciamento
Clientes Azure foram atingidos por uma interrupção global de serviços como máquinas virtuais. A interrupção durou cerca de oito horas e a página de status do Azure da Microsoft disse que a interrupção da VM começou por volta das 5h UTC (2:00 no horário de Brasília), no dia 13 de outubro.
“Entre 05:12 UTC [2:12 no horário de Brasília] e 11:45 UTC [8:45 no horário de Brasília] em 13 de outubro de 2021, um subconjunto de clientes que usam máquinas virtuais do Windows pode ter recebido notificações de falha ao executar operações de gerenciamento de serviço – como iniciar, criar, atualizar, excluir. As implantações de novas VMs e quaisquer atualizações de extensões podem ter falhado”, diz o comunicado da Microsoft Azure.
“As máquinas virtuais não-Windows e as máquinas virtuais Windows existentes em execução não devem ter sido afetadas por esse problema. Além disso, os serviços com dependências em VMs do Windows também podem ter passado por falhas semelhantes ao criar recursos”, seguiu o resumo do impacto relatado pela empresa.
Serviços com dependências em VMs do Windows, como Azure DevOps, também podem ter sido afetados, observou a página de status. Com base em protestos no Twitter, esses serviços foram definitivamente afetados, destacou uma publicação do site ZDNet sobre a interrupção.
O problema foi identificado durante as operações de gerenciamento de serviço que estavam falhando, pois, segundo o comunicado, “os dados da versão do artefato necessário não podiam ser consultados”. A Microsoft então investigou o provedor de recursos de computação de backend (CRP) para determinar porque as chamadas estavam falhando e identificou que um VMGuestAgent necessário não podia ser consultado no repositório.
“A arquitetura de publicação do VM Guest Agent Extension estava sendo migrada (como parte de uma migração de sistemas de back-end de gerenciamento de serviço legado) para uma nova plataforma que aproveita os recursos mais recentes do Azure Resource Manager (ARM)”, disse a empresa.
A empresa afirmou que o impacto foi mitigado marcando as extensões apropriadas no nível esperado correto (neste caso, público) e que continuará investigando para estabelecer a causa raiz completa e evitar ocorrências futuras.
Uma análise de causa raiz completa (RCA) será publicada em até 72 horas, afirmou a Microsoft Azure.
Com informações de ZDNet