A ascensão do data lakehouse: uma nova era de valor de dados

Aceleradores de consulta, como data lakehouses, consolidam o data warehouse e o data lake em um único sistema de insights

Author Photo
5:01 pm - 24 de agosto de 2022
Foto: Shutterstock

Com 65 milhões de doses de vacina para administrar no auge da pandemia de Covid-19, Luigi Guadagno, CIO da Walgreens, precisava saber para onde enviá-las. Para descobrir, ele consultou o data lakehouse da Walgreens, implementado com a tecnologia Databricks no Microsoft Azure.

“Aproveitamos o lakehouse para entender o momento”, diz o CIO. Para Guadagno, a necessidade de adequar a disponibilidade de vacinas à demanda dos pacientes veio no momento certo, tecnologicamente falando. A gigante cadeia farmacêutica havia criado sua lakehouse para enfrentar exatamente esses desafios em sua busca, para, como Guadagno coloca, “obter o produto certo no lugar certo para o paciente certo”.

Anteriormente, a Walgreens estava tentando realizar essa tarefa com seu data lake, mas enfrentou dois obstáculos significativos: custo e tempo. Esses desafios são bem conhecidos por muitas organizações, pois elas buscam obter conhecimento analítico de suas vastas quantidades de dados. O resultado é uma mudança de paradigma emergente na forma como as empresas apresentam insights, que as vê se apoiando em uma nova categoria de tecnologia arquitetada para ajudar as organizações a maximizar o valor de seus dados.

Entre no data lakehouse

Tradicionalmente, as organizações mantêm dois sistemas como parte de suas estratégias de dados: um sistema de registro, no qual executa seus negócios, e um sistema de insights, como um data warehouse do qual coleta business intelligence (BI). Com o advento do big data, um segundo sistema de insights, o data lake, apareceu para fornecer insights de inteligência artificial e machine learning (AI/ML). Muitas organizações, no entanto, estão achando insustentável esse paradigma de confiar em dois sistemas separados de percepção.

O data warehouse requer um processo demorado de extração, transformação e carregamento (ETL) para mover os dados do sistema de registro para o data warehouse, onde os dados seriam normalizados, consultados e as respostas obtidas. Enquanto isso, dados não estruturados seriam despejados em um data lake onde seriam submetidos à análise por cientistas de dados qualificados usando ferramentas como Python, Apache Spark e TensorFlow.

Sob Guadagno, a Walgreens, com sede em Deerfield, Illinois, consolidou seus sistemas de insights em um único data lakehouse. E ele não está sozinho. Um número crescente de empresas está descobrindo que os lakehouses – que se enquadram em uma categoria de produto geralmente conhecida como aceleradores de consulta – estão atendendo a uma necessidade crítica.

“Lakehouses resgatam as falhas de alguns data lakes. Foi assim que chegamos aqui. As pessoas não conseguiam obter valor do lake”, diz Adam Ronthal, Vice-Presidente e Analista do Gartner. No caso do Lakehouse do Databricks Delta Lake, os dados estruturados de um data warehouse normalmente são adicionados a um data lake. Para isso, o lakehouse adiciona camadas de otimização para tornar os dados mais amplamente consumíveis para a coleta de insights.

O lakehouse Databricks Delta Lake é apenas uma entrada em um mercado cada vez mais lotado, que inclui fornecedores como Snowflake, Starburst, Dremio, GridGain, DataRobot e talvez uma dúzia de outros, de acordo com o Market Guide for Analytics Query Accelerators, do Gartner.

A Moonfare, uma empresa de private equity, está fazendo a transição de um data warehouse baseado em PostgreSQL na AWS para um data lakehouse Dremio na AWS, para inteligência de negócios e análise preditiva. Quando a implementação for lançada no outono [norte-americano] de 2022, os usuários corporativos poderão realizar análises de autoatendimento em cima dos dados no AWS S3. As consultas incluirão quais campanhas de marketing estão funcionando melhor com quais clientes e quais gestores de fundos estão tendo o melhor desempenho. O lakehouse também ajudará na prevenção de fraudes.

“Você pode consultar intuitivamente os dados do data lake. Os usuários provenientes de um ambiente de data warehouse não devem se importar onde os dados residem”, diz Angelo Slawik, Engenheiro de Dados da Moonfare. “O que é super importante é que isso elimina os trabalhos de ETL”, diz ele, acrescentando: “Com o Dremio, se os dados estiverem no S3, você poderá consultar o que quiser”.

A Moonfare selecionou o Dremio em uma prova de conceito com o AWS Athena, um serviço de consulta interativa que permite consultas SQL em dados do S3. De acordo com Slawik, o Dremio provou ser mais capaz graças ao desempenho muito rápido e uma interface de usuário altamente funcional que permite aos usuários rastrear a linhagem de dados visualmente. Também importantes foram as visões baseadas em funções e o controle de acesso do Dremio para segurança e governança, que ajudam a empresa com sede em Berlim, na Alemanha, a cumprir os regulamentos do GDPR.

No BNP Paribas, com sede em Paris, silos de dados dispersos estavam sendo usados para BI por diferentes equipes do banco gigante. Emmanuel Wiesenfeld, um contratado independente, reprojetou os silos para criar um sistema centralizado para que usuários de negócios, como traders, pudessem executar suas próprias consultas de análise em “uma única fonte de verdade”.

“As equipes de negociação queriam colaborar, mas os dados estavam dispersos. As ferramentas para analisar os dados também estavam espalhadas, tornando-os caros e difíceis de manter”, diz Wiesenfeld. “Queríamos centralizar os dados de muitas fontes de dados para permitir o conhecimento da situação em tempo real. Agora os usuários podem escrever seus próprios scripts e executá-los sobre os dados”, explica ele.

Usando a tecnologia Apache Ignite da GridGain, Wiesenfeld criou uma arquitetura de computação na memória. A chave para a nova abordagem é passar de ETL para ELT, onde a transformação é realizada durante a execução de cálculos para agilizar todo o processo, de acordo com Wiesenfeld, que diz que o resultado foi reduzir a latência de horas para segundos. Desde então, Wiesenfeld lançou uma startup chamada Kawa para levar soluções semelhantes a outros clientes, principalmente fundos de cobertura.

A Starburst adota uma abordagem de malha, aproveitando a tecnologia Trino de código aberto no Starburst Enterprise para melhorar o acesso a dados distribuídos. Em vez de mover os dados para um warehouse central, a malha permite o acesso enquanto permite que os dados permaneçam onde estão. A Sophia Genetics está usando a Starburst Enterprise em sua plataforma de análise SaaS de bioinformática baseada em nuvem. Um motivo: manter dados confidenciais de saúde em países específicos é importante por motivos regulatórios. “Devido a restrições de conformidade, simplesmente não podemos implantar nenhum sistema que acesse todos os dados de um ponto central”, disse Alexander Seeholzer, Diretor de Serviços de Dados da Sophia Genetics, com sede na Suíça, em um estudo de caso da Starburst.

As novas plataformas de aceleração de consultas não estão paradas. Databricks e Snowflake introduziram nuvens de dados e data lakehouses com recursos projetados para as necessidades de empresas em setores específicos, como varejo e saúde. Esses movimentos ecoam a introdução de nuvens específicas do setor pelos hiperescaladores Microsoft Azure, Google Cloud Platform e Amazon Web Services.

O lakehouse como melhor prática

Ronthal, do Gartner, vê a evolução do data lake para o data lakehouse como uma tendência inexorável. “Estamos nos movendo na direção em que o data lakehouse se torna uma prática recomendada, mas todos estão se movendo em uma velocidade diferente”, diz Ronthal. “Na maioria dos casos, o lake não foi capaz de atender às necessidades de produção”.

Apesar da ânsia dos fornecedores de data lakehouse em incluir o data warehouse em suas ofertas, o Gartner prevê que o warehouse perdurará. “É improvável que os aceleradores de consultas do Analytics substituam o data warehouse, mas podem tornar o data lake significativamente mais valioso, permitindo um desempenho que atenda aos requisitos da equipe comercial e técnica”, conclui seu relatório sobre o mercado de aceleradores de consultas.

Noel Yuhanna, Vice-Presidente e Analista Principal da Forrester Research, discorda, afirmando que o lakehouse realmente tomará o lugar de warehouses e lakes separados.

“Nós vemos o futuro dos warehouses e lakes chegando a um lakehouse, onde um sistema é bom o suficiente”, diz Yuhanna. Para organizações com warehouses e lakes distribuídos, a arquitetura de malha, como a do Starburst, atenderá a uma necessidade, de acordo com Yuhanna, porque permite que as organizações implementem a governança federada em vários locais de dados.

Seja qual for a abordagem, Yuhanna diz que as empresas estão buscando ganhar mais rapidamente o valor de seus dados. “Eles não querem ‘cliente 360’ daqui a seis meses; eles querem na próxima semana. Chamamos isso de dados “rápidos”. Assim que os dados são criados, você executa análises e insights sobre eles”, diz ele.

De um sistema de insight para um sistema de ação

Para Guadagno, a distribuição de vacinas foi uma iniciativa de alto perfil e salvadora de vidas, mas o lakehouse Walgreens também trabalha em tarefas de varejo mais mundanas, mas essenciais, como enviar lembretes de prescrição e cupons de produtos. Esses processos combinam uma compreensão do comportamento do cliente com a disponibilidade de estoque farmacêutico e de varejo. “Pode ficar muito sofisticado, com insights muito personalizados”, diz ele. “Isso nos permite focar no cliente”.

Para outros que estão embarcando em uma jornada semelhante, Guadagno aconselha: “Coloque todos os seus dados no lakehouse o mais rápido possível. Não embarque em nenhuma modelagem ou racionalização de dados demorada. É melhor pensar em criar valor. Coloque tudo lá e dê acesso a todos por meio de governança e colaboração. Não desperdice dinheiro com integração e ETL”.

Na Walgreens, o lakehouse Databricks é mais do que simplesmente tornar a tecnologia mais eficiente. É a chave para sua estratégia geral de negócios. “Estamos em uma missão para criar uma experiência muito personalizada. Começa no ponto de varejo – o que você precisa e quando precisa. Em última análise, é para isso que servem os dados”, diz Guadagno. “Não há mais sistema de registro e sistema de insight. É um sistema de ação”.

Tags:

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.