Planejamento de continuidade de negócios: uma abordagem proativa para gerenciamento de ameaças

Avaliar o cenário de ameaças e implementar um plano pode ajudá-lo a criar resiliência operacional contra eventos geopolíticos

Author Photo
9:37 am - 08 de abril de 2022

As manchetes atuais sobre a Ucrânia trazem muitas empresas preocupadas com a segurança dos funcionários ou contratados que residem lá. Eventos como este destacam a importância de desenvolver planos de contingência baseados em eventos no mundo que possam impactar os negócios.

A continuidade dos negócios é uma parte essencial do processo de planejamento para CIOs e CTOs. Os ‘eventos cisne negro’ podem impactar os negócios de maneira significativa. Alguns desses eventos não podem ser previstos – mas alguns podem ser planejados, até mesmo esperados, com antecedência. A continuidade dos negócios consiste em avaliar o cenário de ameaças e ter planos em vigor. Isso ajuda a lidar com ameaças previsíveis e cria resiliência operacional contra ameaças.

O cenário de ameaças

Uma prática recomendada para equipes de liderança é pensar constantemente sobre o cenário de ameaças, identificar possíveis problemas e se preparar para eles. Não fazer isso pode resultar em impacto financeiro significativo nas empresas.

Um conjunto não exaustivo de eventos que podem precisar ser planejados são:

  • Ameaças geopolíticas (por exemplo, a invasão russa da Ucrânia)
  • Desastres naturais (por exemplo, terremotos)
  • Ameaças direcionadas (por exemplo, ransomware)
  • Mudanças regulatórias

Algumas dessas ameaças exigem implementação e execução antecipadas. Outros exigem um plano para garantir que a equipe saiba quais são os principais objetivos e as ações a serem tomadas diante de uma ameaça. CIOs e CTOs precisam monitorar constantemente o cenário de ameaças e atualizá-los conforme necessário. Inspeções como as certificações SOC-2 são boas funções de força que permitem uma inspeção externa de algumas das superfícies de ameaça.

Planejamento para ameaças geopolíticas

Na minha empresa, a Inflection, o planejamento para possíveis interrupções relacionadas à Ucrânia nos negócios começou um ano e meio antes do conflito real. Formulamos um conjunto de princípios e construímos um plano com base nesses princípios. Neste caso, os princípios-chave que usamos foram:

– Construção de uma equipe geodiversificada. Além da Ucrânia, construímos uma presença substancial nos EUA e no Brasil.
– Construção de diversidade de trabalho. Em vez de ter silos funcionais completos em cada região, pedimos que as equipes colaborassem entre as regiões. Há desvantagens nisso (comunicação adicional, por exemplo), mas foi a compensação certa para nós.
– Priorização da segurança dos funcionários e contratados. Sabemos que um evento geopolítico pode ter implicações financeiras adicionais para garantir a segurança, e concordamos em gastar dinheiro adicional para garantir a segurança. A Inflection ofereceu três meses de custo de vida para os membros da equipe na Ucrânia se mudarem para um local diferente, além de cuidar da logística como da folha de pagamento.
– Ênfase a escrita sobre a comunicação verbal. Como exemplo, toda decisão de engenharia importante passa por um rigoroso processo de decisão de arquitetura.

Essas medidas proativas nos permitiram priorizar a segurança dos funcionários, garantindo a continuidade dos negócios. Além desses princípios, havia um plano detalhado para garantir como cobriríamos os funcionários indisponíveis por longos períodos de tempo.

Planejamento de continuidade na prática: um mergulho profundo no planejamento de disponibilidade de software

Um exemplo de planejamento proativo está relacionado a desastres naturais. Qual é o plano de sua organização se um desastre (por exemplo, um terremoto) atingir a região em que seu data center está localizado e causar uma partição de rede? O exemplo abaixo funcionará com o pensamento, supondo que você esteja usando um fornecedor de nuvem pública.

Um ponto de partida para o planejamento da disponibilidade é a promessa que você faz aos clientes em relação ao tempo de atividade. O benchmark de tempo de atividade SaaS padrão é 99,95% de disponibilidade, o que corresponde a 4h 22m 58s de indisponibilidade permitida anualmente. Ao planejar isso, você precisa pensar em:

Qual é o seu RTO (objetivo de tempo de recuperação) e RPO (objetivo de ponto de recuperação) quando um incidente acontece? Um acordo sobre essas métricas é necessário para tomar decisões de compensação.
Você tem janelas de manutenção? Em caso afirmativo, subtraia isso do orçamento de indisponibilidade. (Você também deveria estar se perguntando por que tem uma janela de manutenção.)
Qual é a garantia subjacente da plataforma em que você está? Os fornecedores de nuvem normalmente não oferecem garantias de tempo de atividade.
Qual deve ser o seu plano se uma zona de disponibilidade (um data center) perder disponibilidade?
Qual deve ser o seu plano se uma região (várias zonas de disponibilidade) sofrer uma interrupção?
Qual é o seu plano se o fornecedor (várias regiões) não estiver disponível?

Existem diferentes compensações de custo-complexidade para essas questões. Empresas menores podem optar por evitar maior complexidade, enquanto isso pode não ser uma opção para empresas maiores.

O objetivo do planejamento é ter uma postura clara para cada uma dessas questões.

Você deve oferecer suporte à alta disponibilidade por meio de várias zonas de disponibilidade? Para a maioria das organizações, essa é uma decisão simples: oferecer suporte a várias zonas de disponibilidade na AWS não é complexo e pode ser feito com relativamente pouco custo e complexidade.

O que você deve fazer se houver uma interrupção regional – uma situação de recuperação de desastres (DR)? Fazer a sincronização entre regiões é complexo e caro. Menos organizações optam por fazer isso. Em vez disso, você pode optar por fazer backup de seus dados em outra região e fazer com que seu RTO/RPO reflita o fato de que sua compensação é uma recuperação mais longa para uma arquitetura mais simples.

E se houver uma interrupção completa de um fornecedor de nuvem? Fazer implantações entre fornecedores é extremamente complexo e caro. Na maioria dos casos, um backup de seus dados em um provedor de nuvem diferente é suficiente. Mas se você estiver operando uma grande empresa, provavelmente desejará estar em vários fornecedores de nuvem por motivos de custo e escala.

Levando tudo isso em consideração, um plano precisa ser formulado e acordado pelos executivos da empresa. Os planos de comunicação precisam ser implementados quando um evento ocorrer (por exemplo, como informaremos os clientes?) e, o mais importante, os planos precisam ser testados. Esses planos não terão sentido a menos que sejam praticados regularmente.

Na Inflection, optamos por tomar as seguintes decisões:

Dê suporte à alta disponibilidade implantando em várias zonas de disponibilidade. A perda de um único data center é imperceptível para os clientes.
Sincronize dados entre várias regiões para oferecer suporte a um RPO de menos de 24 horas e um RTO de menos de 72 horas para um desastre regional.
Sincronize os dados com um fornecedor de nuvem secundário para garantir que, em caso de interrupção total de um provedor de nuvem, ainda seja possível recuperá-los.
Por fim, praticamos a restauração de banco de dados anualmente e testamos o DR a cada trimestre.

Planejamento para ameaças direcionadas

Ameaças como ransomware aumentaram significativamente nos últimos anos. Essas ameaças precisam ser enfrentadas de frente. Na Inflection, fazemos isso:

Obtendo a certificação SOC-2 e garantindo que nossos processos sejam comparados com os melhores do setor;
Garantindo que os dados em repouso e em trânsito sejam sempre criptografados
Envolvendo-nos com programas de recompensas de bugs;
Fazendo com que agências externas executem testes de penetração;
Garantindo que as máquinas dos funcionários sejam criptografadas e tenham proteção de software adequada contra malware, phishing e outros ataques;
Segurando a nós mesmos.

Pré-mortem

Um exercício útil para os líderes considerarem é um “pre-mortem”. Ao pensar em continuidade de negócios, é melhor ser proativo em vez de reativo.

Um pre-mortem é o oposto de um post-mortem (mais detalhes no meu artigo sobre Análise de Causa Raiz). Enquanto um post-mortem nos permite analisar o que deu errado – depois que já aconteceu – um pre-mortem pergunta: “O que poderia dar errado? Como poderíamos evitar que isso acontecesse?” Pre-mortems permitem um planejamento mais profundo da continuidade dos negócios e uma abordagem “não me faça pensar” para reagir a incidentes reais porque eles já foram planejados.

Conclusão

Planejar a continuidade dos negócios é um requisito para os executivos. As empresas que esperam até que ocorra um desastre não serão capazes de reagir rapidamente. Sua equipe executiva deve concordar com os princípios e as compensações de custo/complexidade.

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.