Desafios na criação de um data lake e aplicação de Big Data na nuvem
Escala, disponibilidade, integração e performance no processamento dos dados são vantagens da arquitetura em cloud
Smartphones, computadores, aplicativos, redes sociais, dispositivos de IoT e inteligentes. O volume de dados gerados pelos usuários diariamente é praticamente imensurável, pois as informações estão em todos os lugares. Segundo estimativa da Social Goods Brasil, em 2021, foram gerados 350 zettabytes ou 35 trilhões de gigabytes de informação, que surgem de forma completamente desorganizada.
Cada movimento ou interação digital que fazemos deixa um rastro que as empresas podem utilizar para aprimorar a experiência de uso de um produto ou serviço, desde que saibam o que fazer com tanta informação e, claro, cumprindo com as exigências da Lei Geral de Proteção de Dados (LGPD).
O grande desafio das empresas hoje é aprender como captar esses dados, padronizá-los para que possam ser analisados. De acordo com o estudo The Data Paradox, realizado pela Forrester Consulting em 2022 sob encomenda da Dell Technologies, 66% dos mais de 4 mil executivos entrevistados classificam suas empresas como organizações guiadas por dados (data-driven). Entretanto, apenas 21% tratam os dados como prioridade e os utilizam para tomadas de decisão. Além disso, 70% dizem que captam muito mais dados do que conseguem analisar e utilizar.
O gargalo está claro, a grande maioria das empresas já está ciente da importância dos dados, mas poucas detêm a tecnologia para transformá-los em informação valiosa para os negócios. Por causa disso, os investimentos em soluções Big Data são uma das prioridades das áreas de TI no Brasil: de acordo com o IDC, 2,9 bilhões de dólares serão destinados a essas soluções em 2022, um aumento de 10,8% em relação ao ano anterior.
Dados na prática
Quando falamos em tomadas de decisão guiadas por dados, sua aplicação não fica restrita à área de tecnologia para redução de custos, otimização da operação e aumento de performance. Ela pode balizar decisões nos demais departamentos e, principalmente, relacionadas ao produto ou serviço prestado ao cliente, envolvendo experiência, demanda, posicionamento de mercado, definição do público-alvo e a própria concepção (P&D). E não falamos apenas de empresas digitais, como e-commerce e outras plataformas de serviço, pois os dados são igualmente fundamentais para organizações do “mundo real”.
A grosso modo, um estabelecimento comercial consegue, por meio de dispositivos de IoT, mapear o fluxo de pessoas que passa em frente à loja, quantas param para olhar a vitrine, quantas entram, quais as áreas ou os departamentos mais procurados, o tempo de permanência na loja e, com ferramentas adequadas, integrar com quais meios de pagamentos essa pessoa utiliza e com que frequência ela compra.
Já um fabricante consegue entender com qual perfil de público o produto tem mais aderência, quais as principais sazonalidades para aumento de escala de produção, o preço mais competitivo, entre tantos outros fatores que podem definir as melhores ações de marketing, de distribuição, solucionar dúvidas e prevenir problemas, como falta de estoque em determinada região.
Um “lago” repleto de dados
A importância dos dados e da implementação de uma cultura data-driven é o marco zero para colher resultados. O passo seguinte, entrando na parte técnica, é identificar as fontes dos dados, como redes sociais, canais de atendimento, pontos de venda e site, para a criação de um data lake. Toda interação, opinião, comentário ou mesmo atendimento telefônico transcrito pode ser armazenado nesse “lago” repositório de dados estruturados ou não, capturados de fontes diversas, em qualquer escala, para que sejam a matéria-prima das aplicações de Big Data.
Diferentemente do storage em data warehouses, que armazenam dados limpos e padronizados para consultas via SQL, o data lake exige infraestrutura com aplicações de machine learning para o tratamento e a qualificação das informações. Afinal, é necessário contar com mecanismos que tornam os dados utilizáveis e evitam que o lago se torne um pântano.
Diante de tanta informação e de enormes possibilidades, a organização surge como demanda mais urgente. Para isso, é essencial ao responsável pelo projeto identificar quais perguntas ele precisa para alcançar as respostas que deseja. Localizar padrões, quais dados devem ser combinados e como devem ser agrupados. Dessa forma, o funil com as etapas de criação do data lake fica mais claro para a padronização antes do processamento.
A nuvem é a grande facilitadora nessa etapa ao proporcionar as condições para uma arquitetura de armazenamento escalável, de alta disponibilidade e integrada com soluções de processamento dos dados que estruturam essas informações com performance. Os frameworks garantem a confiabilidade e a catalogação dos dados em lote, de logs e eventos para visualização em painéis para análise em tempo real.
Além da organização, a arquitetura cloud favorece a proteção dos dados com as soluções de cibersegurança já integradas à nuvem, especialmente em tempos de crescimento do volume de ataques de phishing e ransomware.
Outro ponto fundamental do uso da nuvem para o gerenciamento de um banco de dados tão amplo e valioso é a governança. O data lake pode se tornar fonte de informação como bibliotecas de consultas para diferentes departamentos, do TI, passando pelo RH, marketing e comercial. A implementação de processos estabelece controles de acesso e outras diretrizes de acordo com as melhores práticas de compliance, cumprindo com a LGPD.
Há quem diga que os dados são o novo petróleo. Se isso for verdade, os data lakes são poços exclusivos e extremamente valiosos de insights estratégicos que cada empresa tem ou deverá ter para otimizar suas operações e aderir de vez à transformação digital.