Os dados não ficam em um banco de dados, sistema de arquivos, data lake ou repositório. Os dados criados em um sistema de registro devem atender a várias necessidades de negócios, integrar-se a outras fontes de dados e, então, ser usados para analytics, aplicativos voltados para o cliente ou fluxos de trabalho internos. Exemplos incluem:
Muitas organizações também têm cientistas de dados, analistas de dados e equipes de inovação que precisam cada vez mais integrar fontes de dados internas e externas. Os cientistas de dados que desenvolvem modelos preditivos geralmente carregam várias fontes de dados externas, como econometria, clima, censo e outros dados públicos, e depois os combinam com as fontes internas. As equipes de inovação que fazem experiências com inteligência artificial precisam agregar fontes de dados grandes e frequentemente complexas para treinar e testar seus algoritmos. E os analistas de negócios e de dados que antes realizavam suas análises em planilhas agora podem exigir ferramentas mais sofisticadas para carregar, juntar e processar vários feeds de dados.
Para qualquer pessoa com habilidades básicas de programação, a maneira mais comum de mover dados da origem para o destino é desenvolver um script curto. O código extrai dados de uma ou mais fontes, executa quaisquer validações e manipulações de dados necessárias e envia-os para um ou vários destinos.
Os desenvolvedores podem codificar integrações de dados ponto a ponto usando várias abordagens, como:
Esses procedimentos de codificação podem extrair dados de várias fontes, juntar, filtrar, limpar, validar e transformar dados antes de enviá-los às fontes de dados de destino.
O script pode ser uma abordagem rápida e fácil para mover dados, mas não é considerado um método de processamento de dados de nível profissional. Um script de processamento de dados de classe de produção precisa automatizar as etapas necessárias para processar e transportar dados e lidar com várias necessidades operacionais.
Por exemplo, as integrações que processam grandes volumes de dados devem ser multithread, e as tarefas em muitas fontes de dados requerem validação de dados robusta e tratamento de exceções. Se a lógica de negócios e as transformações de dados significativas forem necessárias, os desenvolvedores devem registrar as etapas ou tomar outras medidas para garantir que a integração seja observável.
A programação do script para dar suporte a essas necessidades operacionais não é trivial. Exige que o desenvolvedor preveja coisas que podem dar errado com a integração de dados e programe de acordo. Além disso, o desenvolvimento de scripts personalizados pode não ser econômico ao trabalhar com muitas fontes de dados experimentais. Por fim, os scripts de integração de dados costumam ser difíceis de transferir e manter entre vários desenvolvedores.
Por esses motivos, as organizações com muitos requisitos de integração de dados costumam olhar além da programação e dos fluxos de dados de script.
As plataformas de integração de dados permitem o desenvolvimento, teste, execução e atualização de vários pipelines de dados. As organizações os selecionam porque reconhecem que a integração de dados é uma plataforma e capacidade com habilidades de desenvolvimento específicas, requisitos de teste e expectativas de nível de serviço operacional. Quando arquitetos, líderes de TI, CIOs e diretores de dados falam sobre o dimensionamento das competências de integração de dados, eles reconhecem que os recursos que procuram vão além do que os desenvolvedores de software podem facilmente realizar com o código personalizado.
Aqui está uma visão geral do que você provavelmente encontrará em uma plataforma de integração de dados.
A lista de recursos e requisitos de integração de dados pode ser assustadora, considerando os tipos de plataformas, o número de fornecedores competindo em cada espaço e a terminologia do analista usada para categorizar as opções. Então, como você escolhe a combinação certa de ferramentas para os requisitos de integração de dados atuais e futuros?
A resposta simples é que requer alguma disciplina. Comece fazendo um inventário das integrações já em uso, catalogando os casos de uso e fazendo a engenharia reversa dos requisitos em fontes de dados, formatos, transformações, pontos de destino e condições de acionamento. Em seguida, qualifique os requisitos operacionais, incluindo objetivos de nível de serviço, requisitos de segurança, necessidades de conformidade e requisitos de validação de dados. Finalmente, considere adicionar alguns casos de uso novos ou emergentes de alta importância para os negócios que tenham requisitos que diferem das integrações de dados existentes.
Com essa devida diligência em mãos, você provavelmente poderá encontrar vários motivos pelos quais as integrações do tipo “faça você mesmo” são soluções abaixo da média e algumas orientações sobre o que procurar ao revisar as plataformas de integração de dados.
A empresa de origem indiana especialista em software corporativo Freshworks anunciou na quarta-feira (1º) duas…
O segundo dia do IT Forum Trancoso 2024 encerrou com a forte presença de executivos discutindo o…
Da consultoria até se tornar uma desenvolvedora de soluções de prevenção à fraude, a Horus…
Uma CIO da indústria automobilística e um CIO da área de saúde se reúnem em…
Durante o NETmundial+10, evento global que aprofunda discussões sobre a governança do mundo digital organizado…
A sustentabilidade deve estar presente em todas as áreas. Essa foi a fala de abertura…