Audi aposta em tecnologias open source para construir base de dados
Empresa quer usar dados coletados dos carros para desenvolvimento de futuros projetos
A montadora alemã Audi vem adotando uma série de tecnologias de código aberto (open source) para construir um big data para coletar volumes crescentes de dados de seus mais recentes modelos de carros de luxo, bem como das máquinas em suas instalações de produção.
Falando a uma sala lotada no encontro da Dataworks em Berlim (Alemanha), na semana passada, Matthias Graunitz e Carsten Herbe, dois grandes arquitetos de dados da Audi, falaram sobre como eles construíram o backend de dados para armazenar essas novas fontes de dados e algumas lições aprendidas ao longo do caminho.
Open source stack
A Audi é um grande usuário do Hadoop, armazenando dados no Hadoop Distributed File System (HDFS) desde 2015. Apresentando o roteiro, Graunitz disse: “Começamos com um pequeno cluster até o final de 2015, começamos com clientes para investigar como construir e executar este sistema e se eles atenderem aos requisitos de negócios. Por isso, iniciamos com um pequeno cluster de plataforma de dados Hortonworks (HDP) e temos quatro nós, 96 núcleos e 160 TB de capacidade bruta. “
Hoje, esse é um cluster Hadoop produtivo com 1 PB de capacidade de armazenamento, 288 núcleos em 12 nós e 6 TB de RAM, além de um cluster Kafka produtivo com 4 nós, 128 GB de RAM e 16 TB de capacidade bruta.
Isso não significa que a integração fosse perfeita, como Herbe identificou. “Introduzir o Hadoop em um ambiente corporativo existente tem desafios, precisa integrar-se a sistemas corporativos, há requisitos de segurança”.
Essa base de dados levou a duas provas de conceitos – uma das chaves de fenda usadas nas instalações de produção e outra para os dados de uso do carro transmitidos pelas unidades de controle.
Em relação às chaves de fenda, Graunitz explica que o foco era ver se o processo dentro das instalações de produção estava funcionando bem ou se seria possível prever antecipadamente quaisquer problemas no processo de manutenção.
Depois, com os dados do carro, cada novo modelo da Audi agora transmite cerca de 25 mil sinais via aérea em uma loja HDFS para ser analisado pela equipe da empresa.
Em seguida, ele inclui algumas ferramentas de BI, como o Tableau, para fornecer aos usuários de negócios acesso a essas informações para tomar decisões de design em modelos futuros.
“Muitos departamentos de negócios querem informações a partir desses dados, por isso tivemos que repensar a propriedade dos dados e a governança de dados para definir um modelo de domínio de dados com responsabilidade clara em cada domínio”, explicou Graunitz.
“Como fornecemos cada serviço compartilhado em um ambiente multi-locatário, precisamos de um gerenciamento de ciclo de vida para cada serviço e forte colaboração com os projetos que usam esse serviço. É claro que também precisamos de SLAs definidos, como disponibilidade 24/7 e diferentes ciclos de vida de desenvolvimento. “
A tecnologia foi testada pela primeira vez usando dados anônimos de uma frota de testes de veículos, antes de ser lançada para o modelo mais recente da montadora: a A8.
Agora, Graunitz admite que a nuvem é a “peça que falta” na Audi. “Tudo o que apresentamos hoje é construído on-premise ou em nossa nuvem privada”.
“Devido à gravidade dos dados e aos requisitos legais, precisamos nos aproximar dos carros e onde os dados ocorrem, então estabelecemos uma segunda iniciativa em que esses dados são aterrados pela primeira vez em um ambiente de nuvem e para termos uma abordagem híbrida.”
Para fazer isso, a Audi usou um conector HDFS da empresa Confluent para trazer esses dados via pipelines Kafka para o HDFS, com um catálogo de metadados também construído na nuvem como um meio de localizar dados, independentemente de qual loja ele reside.
O que a equipe da Audi faz com esses dados ainda não sabemos, mas futuros modelos certamente poderiam ser construídos de acordo com os dados de uso que estão sendo acionados pelas unidades de controle da A8 neste exato segundo.