Erro humano foi causa de interrupção de serviços, diz AWS

A Amazon Web Services (AWS) já identificou a causa da interrupção de seu servidor S3, na última terça-feira (28/02), que derrubou diversos serviços on-line. Em nota, a empresa afirma que um erro humano resultou na falha dos serviços Amazon S3 na região do norte da Virgínia (US-EAST-1). A instabilidade durou mais de 3 horas e meia e impactou o envio e recebimento de dados dos clientes, entre eles serviços como Netflix, Slack e Spotify.

O problema foi um erro de digitação em um comando, que casou a remoção de um conjunto maior de servidores do que o previsto. Um engenheiro da empresa foi encarregado de digitar um comando para desligar alguns subsistemas de armazenamento. Em um dia típico, isso não causaria qualquer problema qualquer, já que é uma tarefa rotineira, mas na terça-feira algo não ocorreu como o esperado.

O funcionário entrou no comando de acordo com o procedimento baseado no que a Amazon chama de “um playbook estabelecido.” Ele deveria emitir um comando para derrubar um pequeno número de servidores em um sub-sistema S3, mas, ao invés de derrubar apenas aquele pequeno conjunto de servidores, tirou um conjunto muito maior.

O erro teve um impacto em cascata no armazenamento S3 no data center do Norte da Virgínia. O fato removeu uma quantidade significativa de capacidade de armazenamento, o que fez com que os sistemas reiniciassem.

Em nota, a AWS lamentou que infelizmente uma das entradas para o comando foi inserida incorretamente e um conjunto maior de servidores foi removido do que o pretendido. “Os servidores que foram inadvertidamente removidos suportaram dois outros subsistemas S3. Um desses subsistemas, o subsistema de índice, gerencia os metadados e as informações de localização de todos os objetos S3 na região”, explicou.

A empresa também se desculpou pelo impacto que esse evento causou para os clientes. “Enquanto estamos orgulhosos de nosso longo histórico de disponibilidade com o Amazon S3, sabemos o quão crítico este serviço é para nossos clientes, seus aplicativos e usuários finais e seus negócios. Faremos tudo o que pudermos para aprender com este evento e usá-lo para melhorar nossa disponibilidade ainda mais”, finalizou a companhia.

Confira na íntegra a nota divulgada pela AWS (em inglês).

Recent Posts

SpaceX, Anthropic e OpenAI enfrentam riscos em possíveis IPOs

SpaceX, Anthropic e OpenAI estão no radar de Wall Street para possíveis aberturas de capital…

2 dias ago

Sistemas legados: como tomar decisões para garantir resiliência em setores críticos

por Eduardo Honorato Falar sobre infraestruturas críticas na Era Digital tem sua própria complexidade dentro…

2 dias ago

Sem equipes preparadas, IA não entrega transformação

A adoção de inteligência artificial (IA) nas empresas não depende apenas da disponibilidade de ferramentas.…

2 dias ago

Cohesity obtém patente para aplicar IA diretamente em dados de backup corporativos

A Cohesity anunciou a concessão da Patente Nº 12.619.501 pelo Escritório de Patentes e Marcas…

3 dias ago

Para Diogo Cortiz, maior desafio da IA é a falta de capacidade crítica para questionar suas respostas

Diogo Cortiz, professor da PUC-SP e doutor em Tecnologias da Inteligência e Design Digital, tem…

3 dias ago

Agentes de IA vão dar “superpoderes” a profissionais de TI, diz DJ Sampath, da Cisco

DJ Sampath chegou aos Estados Unidos há 30 anos com oito dólares no bolso e…

3 dias ago