Notícias

Quando humanos cometem erros tecnológicos

Muitas vezes pensamos que os fornecedores são perfeitos. Eles têm backups. Eles têm redundância. Eles têm especialistas que sabem exatamente como implantar soluções sem falhas. E então vemos que eles não são melhores do que nós.

Vejamos alguns exemplos recentes.

No universo das pequenas e médias empresas (SMB), a StorageCraft tem sido uma fornecedora confiável de software de backup. Uma das primeiras a tornar os backups de imagem fáceis de fazer, ela foi usada e recomendada por muitos provedores de serviços gerenciados. Depois que a StorageCraft foi adquirida pela Arcserve, em março de 2021, não houve grandes mudanças imediatas na forma como a empresa funcionava.

Então, no mês passado, muitos backups na nuvem foram perdidos permanentemente. Conforme relatado pelo Blocks and Files: “Durante uma janela de manutenção planejada recente, uma matriz redundante de servidores contendo metadados críticos foi desativada prematuramente. Como resultado, alguns metadados foram comprometidos e links críticos entre o ambiente de armazenamento e nossa nuvem DRaaS (Cloud Services) foram desconectados. Os engenheiros não conseguiram restabelecer os links necessários entre os metadados e o sistema de armazenamento, tornando os dados inutilizáveis. Isso significa que os parceiros não podem replicar ou fazer failover de máquinas em nosso datacenter”.

Em 16 de abril, o relatório de status dizia: “Todas as máquinas afetadas agora estão habilitadas com um acúmulo de pontos de recuperação ocorrendo. Todas as limitações foram desativadas e os uploads estão funcionando normalmente. O tempo para replicar os dados dependerá da largura de banda de upload e do volume de dados de cada cliente”.

Isso não ajuda se houver um backup mais antigo que você deseja manter em seu repositório na nuvem.

Na sequência, a Atlassian, que indicou em 04 de abril que aproximadamente 400 clientes do Atlassian Cloud sofreram uma interrupção total em seus produtos. Como a empresa observou em seu site:

“Um de nossos aplicativos independentes para Jira Service Management e Jira Software, chamado ‘Insight – Asset Management‘, foi totalmente integrado aos nossos produtos como funcionalidade nativa. Por isso, precisávamos desativar o aplicativo legado autônomo nos sites dos clientes que o tinham instalado. Nossas equipes de engenharia planejaram usar um script existente para desativar instâncias desse aplicativo independente. No entanto, dois problemas críticos se seguiram:

“Falta de comunicação. Primeiro, houve uma falha de comunicação entre a equipe que solicitou a desativação e a equipe que executou a desativação. Em vez de fornecer os IDs do aplicativo pretendido marcado para desativação, a equipe forneceu os IDs de todo o site na nuvem onde os aplicativos deveriam ser desativados.

“Roteiro com defeito. Em segundo lugar, o script que usamos forneceu o recurso ‘marcar para exclusão’ usado em operações normais do dia-a-dia (onde a capacidade de recuperação é desejável) e o recurso ‘excluir permanentemente’ que é necessário para remover dados permanentemente quando necessário por motivos de conformidade. O script foi executado com o modo de execução incorreto e a lista de IDs incorreta. O resultado foi que os sites de aproximadamente 400 clientes foram excluídos indevidamente”.

Embora esses incidentes possam não ter afetado você diretamente, é aconselhável usá-los como lições para aprender.

Em primeiro lugar, sempre revise (no contrato com um fornecedor ou nos termos de licenciamento) quais são suas responsabilidades e quais soluções você pode ter caso ocorra um problema. Em ambos os casos, a StorageCraft e a Atlassian cumprirão os termos acordados. Se você é um cliente maior, pode controlar os termos do contrato e a solução disponível. Se você for um cliente menor, o contrato de licença do usuário final e os termos incluídos nele controlam o que o fornecedor fará. Se você confia em um fornecedor e seus serviços, planeje algo que dê errado em algum momento. A chave é revisar como os fornecedores lidam com seus erros e não com seus sucessos.

Eles vão reembolsá-lo pelo valor de sua perda? Eles realizarão ações extraordinárias para restaurá-lo ao todo ou quase todo? Muitas vezes, a rapidez com que eles confessam o que aconteceu pode ser mais importante do que como eles lidam com seus dados.

Em ambos os casos, o erro humano foi o culpado. Ainda me lembro da época em que estava trabalhando em um computador DOS e digitei acidentalmente del *.* na raiz da unidade C em vez de no subdiretório que pretendia. Claramente, é uma lição que fica comigo até hoje. Sempre que estou fazendo algo relacionado à exclusão, sempre faço uma pausa e pergunto se tenho um backup para o caso de cometer um erro. Faço uma pausa e verifico onde estou realizando a ação. Eu me pergunto se estou excluindo o item certo.

Não importa se você é um único usuário ou lida com uma rede de computadores (no local ou na nuvem), sempre tenha um backup completo. Considere ter várias maneiras de recuperar dados após um problema. De backups completos a cópias simples de diretórios, seja flexível em ter maneiras de recuperar dados.

Em seguida, se você for um MSP, peça que sua equipe verifique novamente seus scripts. Muitas vezes, reutilizamos scripts e não os auditamos para garantir que ainda façam o que pretendemos. Ler sobre os detalhes do fracasso da Atlassian é doloroso. Claramente, as equipes não se comunicaram bem e acabaram excluindo acidentalmente informações que não planejavam excluir. A comunicação ao planejar uma grande mudança em sua infraestrutura é a chave para o sucesso.

Isso vale para comunicações de fornecedores também. Sou usuária do Microsoft 365 e geralmente confio em duas plataformas diferentes para acompanhar os problemas. A conta do Twitter do Microsoft 365 permite que eu receba alertas quando houver problemas. (Você pode baixar o aplicativo do Twitter e configurá-lo para receber uma notificação por push quando houver uma mudança de status.) Como alternativa, você pode configurar notificações do centro de mensagens para garantir que você esteja atualizado. Para todos os fornecedores que você usa regularmente, verifique se eles têm algum canal de comunicação que o mantenha atualizado.

Lembre-se de que a tecnologia é impulsionada por decisões humanas e os humanos cometem erros. Não assuma que erros não ocorrerão. Planeje o que você fará quando os fornecedores cometerem erros. Afinal, eles são apenas humanos.

Recent Posts

Novos executivos da semana: Dahua, Rimini Street, Arcserve e mais

O IT Forum traz, semanalmente, os novos executivos e os principais anúncios de contratações, promoções e…

19 horas ago

Sustentabilidade x IA: emissões da Microsoft sobem 30%

A Microsoft está enfrentando críticas após um relatório revelar um aumento alarmante em suas emissões…

19 horas ago

Centroflora integra e monitora ambientes industriais e automatiza manutenções

O Grupo Centroflora é um fabricante de extratos botânicos, óleos essenciais e ativos isolados para…

20 horas ago

8 oportunidades de vagas e cursos em TI

Toda semana, o IT Forum reúne as oportunidades mais promissoras para quem está buscando expandir…

22 horas ago

Fraudes: 58% das empresas dizem estar mais preocupadas no último ano

Um estudo divulgado na segunda-feira (13) pela Serasa Experian mostra que a preocupação com fraudes…

23 horas ago

82% dos ataques via USB podem interromper operações industriais

A Honeywell divulgou essa semana a sexta edição de seu Relatório de Ameaças USB de…

23 horas ago