Por que você precisa de uma plataforma de integração de dados

Plataforma de integração garante que cada equipe tenha os dados de que precisam para impulsionar os negócios

Author Photo
6:01 pm - 18 de junho de 2021

Os dados não ficam em um banco de dados, sistema de arquivos, data lake ou repositório. Os dados criados em um sistema de registro devem atender a várias necessidades de negócios, integrar-se a outras fontes de dados e, então, ser usados para analytics, aplicativos voltados para o cliente ou fluxos de trabalho internos. Exemplos incluem:

  • Os dados de um aplicativo de e-commerce são integrados à analytics do usuário, aos dados do cliente em um sistema de gerenciamento de relacionamento com o cliente (CRM) ou a outras fontes de dados principais para estabelecer segmentos de clientes e personalizar mensagens de marketing.
  • Os dados do sensor da Internet das Coisas (IoT) estão vinculados a armazenamentos de dados operacionais e financeiros e são usados para controlar a produção e relatar a qualidade de um processo de fabricação.
  • Um aplicativo de fluxo de trabalho do funcionário conecta dados e ferramentas em várias plataformas de software como serviço (SaaS) e fontes de dados internas em uma interface móvel fácil de usar.

Muitas organizações também têm cientistas de dados, analistas de dados e equipes de inovação que precisam cada vez mais integrar fontes de dados internas e externas. Os cientistas de dados que desenvolvem modelos preditivos geralmente carregam várias fontes de dados externas, como econometria, clima, censo e outros dados públicos, e depois os combinam com as fontes internas. As equipes de inovação que fazem experiências com inteligência artificial precisam agregar fontes de dados grandes e frequentemente complexas para treinar e testar seus algoritmos. E os analistas de negócios e de dados que antes realizavam suas análises em planilhas agora podem exigir ferramentas mais sofisticadas para carregar, juntar e processar vários feeds de dados.

Integração de dados de programação e script

Para qualquer pessoa com habilidades básicas de programação, a maneira mais comum de mover dados da origem para o destino é desenvolver um script curto. O código extrai dados de uma ou mais fontes, executa quaisquer validações e manipulações de dados necessárias e envia-os para um ou vários destinos.

Os desenvolvedores podem codificar integrações de dados ponto a ponto usando várias abordagens, como:

  • Um procedimento armazenado em banco de dados que envia alterações de dados para outros sistemas de banco de dados;
  • Um script executado como um trabalho agendado ou serviço;
  • Um webhook que alerta um serviço quando o usuário final de um aplicativo altera os dados;
  • Um microsserviço que conecta dados entre sistemas;
  • Um pequeno snippet de código de processamento de dados implantado em uma arquitetura sem servidor.

Esses procedimentos de codificação podem extrair dados de várias fontes, juntar, filtrar, limpar, validar e transformar dados antes de enviá-los às fontes de dados de destino.

O script pode ser uma abordagem rápida e fácil para mover dados, mas não é considerado um método de processamento de dados de nível profissional. Um script de processamento de dados de classe de produção precisa automatizar as etapas necessárias para processar e transportar dados e lidar com várias necessidades operacionais.

Por exemplo, as integrações que processam grandes volumes de dados devem ser multithread, e as tarefas em muitas fontes de dados requerem validação de dados robusta e tratamento de exceções. Se a lógica de negócios e as transformações de dados significativas forem necessárias, os desenvolvedores devem registrar as etapas ou tomar outras medidas para garantir que a integração seja observável.

A programação do script para dar suporte a essas necessidades operacionais não é trivial. Exige que o desenvolvedor preveja coisas que podem dar errado com a integração de dados e programe de acordo. Além disso, o desenvolvimento de scripts personalizados pode não ser econômico ao trabalhar com muitas fontes de dados experimentais. Por fim, os scripts de integração de dados costumam ser difíceis de transferir e manter entre vários desenvolvedores.

Por esses motivos, as organizações com muitos requisitos de integração de dados costumam olhar além da programação e dos fluxos de dados de script.

Recursos de plataformas robustas de integração de dados

As plataformas de integração de dados permitem o desenvolvimento, teste, execução e atualização de vários pipelines de dados. As organizações os selecionam porque reconhecem que a integração de dados é uma plataforma e capacidade com habilidades de desenvolvimento específicas, requisitos de teste e expectativas de nível de serviço operacional. Quando arquitetos, líderes de TI, CIOs e diretores de dados falam sobre o dimensionamento das competências de integração de dados, eles reconhecem que os recursos que procuram vão além do que os desenvolvedores de software podem facilmente realizar com o código personalizado.

Aqui está uma visão geral do que você provavelmente encontrará em uma plataforma de integração de dados.

  • Uma ferramenta especializada para desenvolver e aprimorar integrações; muitas vezes, as ferramentas de visualização de low-code permitem arrastar e soltar elementos de processamento, configurando e conectando-os em pipelines de dados.
  • Conectores prontos para uso que permitem integração rápida com sistemas corporativos comuns, plataformas SaaS, bancos de dados, data lakes, plataformas de big data, APIs e serviços de dados em nuvem. Por exemplo, suponha que você deseja se conectar aos dados do Salesforce, capturar contas e contatos e enviar os dados para o AWS Relational Database Service. Nesse caso, é provável que a plataforma de integração já tenha esses conectores pré-construídos e prontos para serem usados ​​em um pipeline de dados.
  • A capacidade de lidar com várias estruturas e formatos de dados além de estruturas de dados relacionais e tipos de arquivo. As plataformas de integração de dados normalmente suportam JSON, XML, Parquet, Avro, ORC e ​​também podem suportar formatos específicos do setor, como NACHA em serviços financeiros, HIPAA EDI em saúde e ACORD XML em seguros.
  • Recursos avançados de qualidade de dados e gerenciamento de dados mestre podem ser recursos da plataforma de integração de dados ou podem ser produtos complementares que os desenvolvedores podem fazer interface a partir de pipelines de dados.
  • Algumas plataformas de integração de dados visam a ciência de dados e recursos de machine learning e incluem elementos de processamento analítico e interface com modelos de machine learning. Algumas plataformas também oferecem ferramentas de preparação de dados para que os cientistas e analistas de dados possam criar protótipos e desenvolver integrações.
  • Recursos de desenvolvimento, como suporte para controle de versão, automação de implantações de pipeline de dados, desmontagem e destruição de ambientes de teste, processamento de dados em ambientes de preparação, escalonamento para cima e para baixo da infraestrutura de pipeline de produção e habilitação da execução multithread.
  • Várias opções de hospedagem incluem data center, nuvem pública e SaaS.
  • Os recursos do Dataops podem manter conjuntos de dados de teste, capturar a linhagem de dados, permitir a reutilização de pipeline e automatizar os testes.
  • Em tempo de execução, as plataformas de integração de dados podem acionar pipelines de dados usando vários métodos, como trabalhos agendados, acionadores orientados a eventos ou modalidades de streaming em tempo real.
  • Os pipelines de dados de produção observáveis fornecem relatórios sobre o desempenho, alertam sobre os problemas da fonte de dados e têm ferramentas para diagnosticar problemas de processamento de dados.
  • Diferentes ferramentas suportam requisitos de segurança, conformidade e governança de dados, como formatos de criptografia, recursos de auditoria, mascaramento de dados, gerenciamento de acesso e integrações com catálogos de dados.
  • Os pipelines de integração de dados não são executados isoladamente; as principais plataformas integram-se ao Gerenciamento de Serviços de TI, ao desenvolvimento ágil e a outras plataformas de TI.

Como comprar uma plataforma de integração de dados

A lista de recursos e requisitos de integração de dados pode ser assustadora, considerando os tipos de plataformas, o número de fornecedores competindo em cada espaço e a terminologia do analista usada para categorizar as opções. Então, como você escolhe a combinação certa de ferramentas para os requisitos de integração de dados atuais e futuros?

A resposta simples é que requer alguma disciplina. Comece fazendo um inventário das integrações já em uso, catalogando os casos de uso e fazendo a engenharia reversa dos requisitos em fontes de dados, formatos, transformações, pontos de destino e condições de acionamento. Em seguida, qualifique os requisitos operacionais, incluindo objetivos de nível de serviço, requisitos de segurança, necessidades de conformidade e requisitos de validação de dados. Finalmente, considere adicionar alguns casos de uso novos ou emergentes de alta importância para os negócios que tenham requisitos que diferem das integrações de dados existentes.

Com essa devida diligência em mãos, você provavelmente poderá encontrar vários motivos pelos quais as integrações do tipo “faça você mesmo” são soluções abaixo da média e algumas orientações sobre o que procurar ao revisar as plataformas de integração de dados.

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.