Etapas para melhorar o gerenciamento de riscos do data center

Os data centers continuam sendo essenciais para a empresa moderna. Aqui está o que você pode fazer para identificar e mitigar os riscos

Author Photo
3:00 pm - 17 de dezembro de 2021
Data centers na nuvem o futuro da proteção e do armazenamento de dados Data centers na nuvem o futuro da proteção e do armazenamento de dados

Há meia década, na esteira do surgimento da computação em nuvem, alguns evangelistas de TI, CIOs e grandes empresas de pesquisa de tecnologia previram a morte iminente do data center como o conhecemos. Na época, meu cocolunista no CIO.com, Mark Settle, aconselhou cautela ao cancelar os data centers e imaginou como eles continuariam a crescer com base na evolução – você adivinhou – dos dados.

Hoje, os data centers continuam não apenas sobrevivendo, mas também prosperando ao lado de sistemas híbridos e multicloud em novos avatares, como no local como serviço. Além disso, os data centers estão preparados para atender à demanda emergente por serviços relacionados à tecnologia emergente, como computação de ponta, IoT e 5G.

Como resultado desses novos aplicativos e necessidades emergentes em computação do usuário final (EUC) e soluções de mobilidade, os data centers estão se tornando cada vez mais complexos, levando a mais riscos internos e externos. O tempo de inatividade é um risco persistente, com um único evento superando perdas de US$ 11.000 por minuto.

Tenha uma abordagem integrada para gestão de risco

A tempestade recorde de inverno e a subsequente queda de energia no Texas em fevereiro de 2021 provaram ser uma verificação da realidade para os data centers do estado. Embora não tenha havido falhas em grande escala, houve problemas significativos com sistemas de failover elétrico.

Do ponto de vista funcional, os data centers são instalações físicas que executam aplicativos essenciais para os negócios, enquanto, da perspectiva dos negócios, são peças de bens imóveis ou ativos de capital que precisam ser orçados e gerenciados.

A questão é que um único ponto de falha pode causar (e frequentemente causa) uma grande interrupção nas operações e, consequentemente, levar à perda de receita. É por isso que você precisa de um plano de gerenciamento de risco abrangente e de uma política que se aplique a toda a organização.

É aqui que entra o Gerenciamento de Risco Integrado (IRM). O Gartner define o IRM como “um conjunto de práticas e processos apoiados por uma cultura ciente de riscos e tecnologias que melhoram a tomada de decisões e o desempenho por meio de uma visão integrada de como uma organização gerencia seus conjuntos únicos de riscos”.

No mundo pós-pandemia, as empresas que implementam trabalho remoto, BYOD, CYOD e outras mudanças nas práticas do local de trabalho estão combinando sua estratégia de transformação digital com atualizações de infraestrutura de TI para identificar, tolerar e mitigar riscos decorrentes de desastres naturais, cadeia de suprimentos, processamento de dados, bem como aqueles inerentes ao seu modelo de negócio.

Se você está no meio de uma transformação digital, precisa monitorar todos os processos e fatores – externos ou internos – que podem afetar seu data center e estar preparado para lidar com vários riscos decorrentes de um único ou vários eventos acontecendo simultaneamente.

A transformação digital não é apenas para a empresa ou organizações que dependem fortemente de dados ou tecnologia – ela se aplica a pequenas e médias empresas no local de trabalho pós-pandemia, incluindo aquelas que começaram com a nuvem pública como um substituto para o data center.

Até mesmo o governo federal está levando a sério a transformação digital – transformar a infraestrutura do data center para aproveitar as vantagens da tecnologia em nuvem é um de seus dois objetivos centrais (melhorar a experiência do usuário on-line é outro).

“A otimização do data center é uma medida chave para scorecards na Lei de Reforma de Aquisição de Tecnologia da Informação Federal. Essa medição é em parte um reflexo de como a infraestrutura da agência tira proveito da nuvem”, diz Jeff Shupack, um especialista em transformação digital com 15 anos de prática na redução de risco para iniciativas de capital global com implementações Lean-Agile.

As organizações estão percebendo que metodologias ágeis, big data analytics, soluções de mobilidade e DevOps funcionam em conjunto com um data center confiável e atualizado para prevenção de riscos eficiente, resposta adequada a riscos e recuperação rápida de desastres. Como resultado, eles estão recorrendo a estruturas que permitem que essas práticas recomendadas sejam implementadas em infraestruturas de TI híbridas para garantir a continuidade dos negócios, reduzir OPEX e melhorar a experiência digital do cliente.

Conheça seus riscos

Não importa o quão abrangente seja o seu plano de gerenciamento de risco, ele nunca pode evoluir mais rápido do que a tecnologia. E novas tecnologias e novas práticas de trabalho estão criando mais complexidades do que nunca. Vamos dar uma olhada rápida nos diferentes tipos de riscos que os data centers enfrentam.

Segurança de TI inadequada

Provavelmente o maior risco que os data centers enfrentam hoje, as violações de segurança cibernética podem variar de ataques DoS a engenharia social e roubo de dados. A violação de dados média custou US$ 4,24 milhões em 2021 – o maior em 17 anos.

As falhas do aplicativo e do sistema também afetam a segurança física, resultando em situações em que os cartões de identificação não podem ser verificados, as conexões de CFTV são perdidas ou o pessoal autorizado não pode entrar em certas áreas.

Falha de sistema

Sem uma arquitetura resiliente e conectividade contínua, redundante e de alta largura de banda, um data center está condenado. Servidores, dispositivos de rede e equipamentos associados precisam de recursos como clustering, espelhamento e duplicação para reduzir as chances de tempo de inatividade.

Às vezes, aplicativos ou softwares (como hipervisores) atuam e derrubam servidores ou redes inteiras com eles. Você precisa ter certeza de que todos os aplicativos funcionam perfeitamente em uma infraestrutura híbrida e se comunicam com os aplicativos nativos da nuvem também.

Falha de energia

Embora extremamente rara, a falta de energia pode acontecer e ocorre – principalmente como consequência de desastres naturais. Você precisa fornecer rotas de energia com UPS ou gerador para todos os racks e sistemas de resfriamento em seu data center. Uma conexão direta a uma rede elétrica de várias subestações ajuda a evitar uma interrupção na subestação local.

Vazamento de água

Inundações ou infiltrações de água podem significar a ruína para os equipamentos do data center. No entanto, cursos de água e drenagem bem mantidos são cruciais para o controle de incêndio e sistemas de resfriamento.

Ruído de alto decibel

Um risco menos conhecido, mas significativo para os data centers, é a exposição prolongada a vibrações sonoras altas e de alta frequência, que podem diminuir a eficácia dos sistemas de armazenamento, reduzir o desempenho de leitura/gravação e, por fim, afetar a integridade dos dados. Os data centers devem ser construídos longe de arenas, postos de bombeiros, aeroportos e similares, e alojados em edifícios que usam tecnologia de supressão acústica.

Incêndio

Picos de energia elétrica e curtos-circuitos são causas comuns de incêndio em data centers. Se não forem contidos rapidamente, os incêndios podem destruir milhares de dólares em hardware em minutos. Ironicamente, os sistemas de ar condicionado e resfriamento dissipam a fumaça e tornam mais difícil detectar um incêndio nos estágios iniciais. Use sistemas de detecção de fumaça com sensores fotoelétricos para monitorar continuamente o ar em seu data center em busca de sinais de fumaça.

Fraco planejamento de recuperação de desastres

Embora o backup de dados seja um procedimento bastante simples atualmente, os data centers são preferidos em relação à nuvem pública por uma combinação de razões de segurança e desempenho – você pode esperar a recuperação imediata dos dados transacionais no caso de uma falha do sistema.

Claro, isso depende de fatores como a natureza do negócio e a estrutura regulatória em que se enquadra. Mais uma razão para ter um plano bem definido de recuperação para cada evento de falha diferente; idem para recursos de computação, armazenamento ou rede.

Os planos de recuperação de desastres mais preventivos têm sistemas de monitoramento que rastreiam os fatores de risco que afetam os data centers e enviam alertas quando os limites críticos são ultrapassados.

Avalie o risco antes de gerenciá-lo

Todos os riscos – como negócios – não são criados iguais. Embora os data centers enfrentem seus próprios riscos distintos, especialmente para diferentes verticais, as técnicas de mitigação de risco que você acaba usando não precisam ser necessariamente adaptadas a um ambiente de data center.

Portanto, você precisa de um plano de gerenciamento de risco que liste todos os riscos imagináveis ​​que seu data center enfrenta e especifique respostas para cada tipo de incidente. Antes que aconteça.

Comece realizando uma auditoria de risco – uma avaliação abrangente de todas as suas instalações próprias e operadas. Avalie os fatores que afetam o design das instalações, a infraestrutura de TI e os processos operacionais.

Se houve grandes incidentes ou interrupções no passado, faça uma análise da causa raiz (se ainda for possível) para resolver as lacunas que você não cobriu. O que você pode fazer para garantir que o tempo de inatividade não ocorra em circunstâncias semelhantes novamente?

Além disso, se você operar uma arquitetura híbrida com vários datacenters e sistemas em nuvem, audite cada um por conta própria, bem como os caminhos de dados e as conexões entre todos eles.

Se você opera em setores altamente regulamentados, como finanças e saúde, precisa fazer avaliações periódicas de risco do data center e testes de desastres como parte de suas operações de rotina.

A criação de uma estrutura, política ou folha de dicas (no mínimo) fornece uma referência pronta das categorias de risco que se aplicam a você, os sistemas que cada categoria afeta, os danos estimados e custos de recuperação, e o protocolo a ser seguido em caso de incidente ou desastre.

Por exemplo, a empresa de consultoria de TI Capgemini emprega uma abordagem em evolução de gerenciamento de risco que identifica e quantifica os riscos junto com seus custos de mitigação. “Implementamos um sistema de gerenciamento de risco mensal que registra todos os riscos e problemas com planos de contenção e ação. Um orçamento de investimento é disponibilizado se houver necessidade de alterações”, disse Kevin Read, Gerente Sênior do Centro de Entrega da Capgemini.

Matando o tempo de inatividade

Um data center – ou mesmo toda a infraestrutura de TI de uma empresa – nunca funciona de forma isolada. Existem inúmeros componentes e fatores que mantêm os data centers funcionando ininterruptamente.

A mitigação de riscos com infraestrutura de TI é uma responsabilidade compartilhada, não apenas do CIO ou CTO. Você precisa ter um número adequado de funcionários de TI treinados e dispostos a fazer o que for necessário para permanecer no topo das operações do data center.

Vou deixar você com um conselho de Gavin Millard, VP de Marketing de Produto da Tenable: “Metas conflitantes podem ser difíceis de resolver, mas um dos métodos mais eficazes de fazer isso é ter um processo altamente eficiente para identificar continuamente onde reside um risco. Você também precisa de um método previsível e confiável de atualização de sistemas sem afetar os objetivos gerais de negócios da organização”.

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.