Quando Big Data se torna big desperdício

Author Photo
12:00 am - 04 de fevereiro de 2014
Quando Big Data se torna big desperdício

Ninguém jamais acusaria a Netflix de ser uma retardatária tecnológica. A Netflix se orgulha de prever o futuro e partir para a competição. Por isso, recentemente, a empresa mudou para Apache Cassandra, um banco de dados NoSQL, e Hadoop, um clássico do Big Data.

No entanto, como o Cassandra não pode ser facilmente casado com as existentes plataformas de análise e relatório da Netflix, a empresa descobriu que precisava desenvolver um processo offline para extrair tanto big data. Do contrário, seu novo banco de dados se tornaria uma câmara de dados.

No entanto, “logo descobrimos que, enquanto alguns processos offline podem ser praticáveis para um ou dois clusters, manter o número de partes móveis exigidas para implementação dessa solução em todos os nossos clusters de produção seria, rapidamente, comprovado impraticável”, escreveram Charles Smith, engenheiro sênior de software para big data da Netflix, e Jeff Magnusson, gerente de arquitetura de plataforma de ciências de dados da empresa no The Netflix Tech Blog.

Para solucionar o problema, os engenheiros da Netflix criaram um aplicativo para reduzir a quantidade de partes móveis e aumentar a velocidade com que os dados são analisados. Não foi uma tarefa trivial. Levou tempo; custou dinheiro. Agora, a Netflix é capaz de escalonar nuvem conforme aumenta o tamanho de seu warehouse de dados.

Este é apenas um exemplo de como um projeto de big data pode entregar surpresas desagradáveis ao longo do caminho e de quão complexos e caros esses desafios podem ser para as organizações.

Olhe antes de saltar

Muitas empresas sentem a pressão competitiva de lidar com as crescentes variedades, volumes e velocidades dos dados. Elas estão fazendo investimentos significativos para elevar a inundação. Mas, a não ser que esses investimentos sejam cuidadosamente planejados, e o impacto organizacional das mudanças computacionais seja avaliado, os resultados para o negócio poderão ser muito decepcionantes.

Como a Netflix e outras empresas já descobriram, mudar para plataformas NoSQL pode resultar em uma enorme quantidade de informações que acabam presas em câmaras de dados, formatadas de formas que não podem ser facilmente analisadas ou pesquisadas.

Felizmente, esse problema pode ser evitado com altos níveis de comunicação entre diversas funções organizacionais, e com a determinação de negócios e requerimentos técnicos comunicados de forma clara e ampla. O mais importante é que todas as iniciativas de big data sejam iniciadas alcançando todos os usuários das informações no fluxo.

Big data, grandes riscos

Quando uma grande empresa de comunicações mudou de um antigo Oracle RDBMS para Apache Cassandra, negligenciou a comunicação com os interessados que usariam as informações coletadas. Como resultado, após a implementação do sistema, a empresa descobriu que as informações mais críticas não poderiam ser pesquisadas. Mais uma vez, a empresa havia desenvolvido uma solução altamente customizada, que exigiu tempo e investimento adicionais.

Existem outros riscos. Como a grande maioria das ferramentas de big data de hoje são baseadas em software de código aberto, oferecidos por organizações sem fins lucrativos que, geralmente, se tratam apenas de grupos de voluntários, versões de ferramentas importantes acabam ficando para trás. Por outro lado, atualizações podem chegar com muita frequência. “Consertar conforme o uso” é parte importante do lema do código aberto. Softwares em código aberto cheio de bugs são comuns. Existem empresas – como a Cloudera e a Datasax, por exemplo – tentando preencher lacunas, mas seus serviços de suporte podem ser bem caros.

Outro problema é a dificuldade em encontrar e contratar administradores de dados, desenvolvedores e arquitetos com experiência prática. E mesmo quando candidatos qualificados são localizados, a contração e a retenção podem ser um desafio. Google, Amazon e outras grandes empresas de tecnologia oferecem pacotes de compensação que outras empresas nem sempre conseguem superar.

Eis o plano

Empresas ansiosas por adotar ferramentas de big data devem começar fazendo perguntas. As mais interessantes são: “Quais são as exigências do meu negócio?”, isso significa identificar as informações essenciais. Uma forma de fazer isso é perguntando “Quais são nossas atuais – e futuras – necessidades de informação?”. Todas as pessoas a quem seu negócio deve recorrer para responder essas perguntas são seus stakeholders.

Depois disso, a organização estará pronta para considerar suas opções, que podem incluir:

– Manter o sistema de gerenciamento de banco de dados relacional (RDBMS), a não ser que haja um bom motivo operacional para não mantê-lo.

– Projetar uma plataforma de banco de dados de big data, com restauração de dados em mente para o futuro, especialmente se as necessidades de restauração forem mínimas.

– Mudar para uma plataforma de big data e criar um revestimento ou ponte que irá extrair, continuamente, os dados exigidos por um sistema que irá suportar as análises da organização e os consumidores dos dados.

As ferramentas de big data podem fazer sentido em situações em que o software de gerenciamento de banco de dados relacional não tem bom desempenho; em que os volumes de dados são muito grandes; em que os dados necessários são desestruturados; ou quando consistência, disponibilidade ou divisão podem ser sacrificadas pelo beneficio das duas condições anteriores.

Porém, as organizações não devem investir em plataformas de big data quando o RDBMS estiver com bom desempenho ou quando a empresa utilizar volumes de dados relativamente pequenos e esses dados forem altamente estruturados.

Por fim, big data não é, no momento, uma solução viável quando o ambiente de dados da organização demandar altos níveis de consistência, por exemplo, em setores como financeiro, militar e saúde.

A solução híbrida

Soluções híbridas podem acabar se tornando um acordo razoável. Essas soluções envolvem a adoção de uma plataforma de big data enquanto os sistemas RBDMS centrais são mantidos em funcionamento. Neste cenário, a organização pode implementar um componente ponte que extrai, continuamente, os dados da plataforma de big data e os leva para o RBDMS. A plataforma de big data geralmente armazena os dados detalhados enquanto o sistema RDBMS tradicional agrega e transforma os dados para o consumo.

Por exemplo, um grande provedor de comunicação puxa dados do Cassandra, carregando-os no Hadoop, mas enviando-os para um warehouse de dados Oracle. As ferramentas de business intelligence da empresa operam com os sistemas e dados relacionais. Essa solução híbrida oferece duas opções à empresa: Hadoop para grandes conjuntos de dados não agregados e flexibilidade para análise de dados, e Oracle para necessidades almejadas e previamente identificadas.

Isso limita o risco da dependência de um software de código aberto, e reduz a dependência da organização por um daqueles profissionais caros, difíceis de encontrar e difíceis de manter com sofisticadas habilidades com big data.

Uma simples novidade nunca é um bom motivo para implementar qualquer tecnologia de negócio; e mergulhar de cabeça, sem se preparar apropriadamente, pode ser desastroso. Embora mudar de um RBDMS para uma plataforma de banco de dados pareça a melhor decisão técnica a ser tomada por tecnólogos, na verdade, é uma decisão mais bem tomada pela empresa inteira.

Os custos e riscos envolvidos são simplesmente altos demais para serem ignorados.

Tags:

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.