O que é arquitetura de dados? Uma estrutura para gerenciar dados

A arquitetura de dados traduz as necessidades de negócios em dados e requisitos de sistema e busca gerenciar os dados e seu fluxo pela empresa

Author Photo
11:21 am - 27 de janeiro de 2022
dados abertos, data center, conectividade

A arquitetura de dados descreve a estrutura dos ativos de dados lógicos e físicos de uma organização e recursos de gerenciamento de dados, de acordo com o Open Group Architecture Framework (TOGAF). É um desdobramento da arquitetura corporativa que compreende os modelos, políticas, regras e padrões que regem a coleta, armazenamento, organização, integração e uso de dados nas organizações. A arquitetura de dados de uma organização é da competência dos arquitetos de dados.

Objetivos da arquitetura de dados

O objetivo da arquitetura de dados é traduzir as necessidades de negócios em dados e requisitos do sistema e gerenciar os dados e seu fluxo pela empresa. Muitas organizações hoje procuram modernizar sua arquitetura de dados como base para alavancar totalmente a IA e permitir a transformação digital. A consultoria McKinsey Digital observa que muitas organizações ficam aquém de suas metas de transformação digital e de IA devido à complexidade do processo, e não à complexidade técnica.

Princípios de arquitetura de dados

De acordo com Joshua Klahr, Vice-Presidente de Gerenciamento de Produtos, Produtos Principais da Splunk e ex-Vice-Presidente de Gerenciamento de Produtos da AtScale, seis princípios formam a base da arquitetura de dados moderna:

  • Os dados são um ativo compartilhado. Uma arquitetura de dados moderna precisa eliminar os silos de dados departamentais e dar a todos os interessados ​​uma visão completa da empresa.
  • Os usuários exigem acesso adequado aos dados. Além de quebrar os silos, as arquiteturas de dados modernas precisam fornecer interfaces que facilitem o consumo de dados pelos usuários usando ferramentas adequadas para seus trabalhos.
  • A segurança é essencial. As arquiteturas de dados modernas devem ser projetadas para segurança e devem oferecer suporte a políticas de dados e controles de acesso diretamente nos dados brutos.
  • Vocabulários comuns garantem um entendimento comum. Os ativos de dados compartilhados, como catálogos de produtos, dimensões de calendário fiscal e definições de KPI, exigem um vocabulário comum para ajudar a evitar disputas durante a análise.
  • Os dados devem ser curados. Invista em funções principais que realizam curadoria de dados (modelagem de relacionamentos importantes, limpeza de dados brutos e curadoria de dimensões e medidas-chave).
  • Os fluxos de dados devem ser otimizados para agilidade. Reduza o número de vezes que os dados devem ser movidos para reduzir custos, aumentar a atualização dos dados e otimizar a agilidade da empresa.

Componentes da arquitetura de dados

Uma arquitetura de dados moderna consiste nos seguintes componentes, de acordo com a consultoria de TI BMC:

  • Pipelines de dados. Um pipeline de dados é o processo no qual os dados são coletados, movidos e refinados. Inclui coleta de dados, refinamento, armazenamento, análise e entrega.
  • Armazenamento na nuvem. Nem todas as arquiteturas de dados aproveitam o armazenamento em nuvem, mas muitas arquiteturas de dados modernas usam nuvens públicas, privadas ou híbridas para fornecer agilidade.
  • Computação em nuvem. Além de usar a nuvem para armazenamento, muitas arquiteturas de dados modernas usam a computação em nuvem para analisar e gerenciar dados.
  • As arquiteturas de dados modernas usam APIs para facilitar a exposição e o compartilhamento de dados.
  • Modelos de IA e machine learning (ML). IA e ML são usadas ​​para automatizar sistemas para tarefas como coleta de dados, rotulagem etc. Ao mesmo tempo, arquiteturas de dados modernas podem ajudar as organizações a liberar a capacidade de alavancar IA e ML em escala.
  • Fluxo de dados. O fluxo de dados está fluindo dados continuamente de uma fonte para um destino para processamento e análise em tempo real ou quase em tempo real.
  • Orquestração de containers. Um sistema de orquestração de contêineres, como o Kubernetes de código aberto, é frequentemente usado para automatizar a implantação, o dimensionamento e o gerenciamento de software.
  • Análise em tempo real. O objetivo de muitas arquiteturas de dados modernas é fornecer análises em tempo real, a capacidade de realizar análises em novos dados à medida que eles chegam ao ambiente.

Arquitetura de dados versus modelagem de dados

De acordo com o Data Management Book of Knowledge (DMBOK 2), a arquitetura de dados define o plano para gerenciar ativos de dados, alinhando-se à estratégia organizacional para estabelecer requisitos de dados estratégicos e designs para atender a esses requisitos. Por outro lado, o DMBOK 2 define modelagem de dados como “o processo de descobrir, analisar, representar e comunicar os requisitos de dados de uma forma precisa chamada modelo de dados”.

Embora tanto a arquitetura de dados quanto a modelagem de dados busquem preencher a lacuna entre as metas de negócios e a tecnologia, a arquitetura de dados trata da visão macro que busca entender e apoiar os relacionamentos entre as funções, a tecnologia e os tipos de dados de uma organização. A modelagem de dados tem uma visão mais focada de sistemas ou casos de negócios específicos.

Estruturas de arquitetura de dados

Existem várias estruturas de arquitetura corporativa que geralmente servem como base para a construção da estrutura de arquitetura de dados de uma organização.

  • DAMA-DMBOK 2. O Data Management Body of Knowledge da DAMA International é uma estrutura específica para gerenciamento de dados. Ele fornece definições padrão para funções de gerenciamento de dados, entregas, funções e outras terminologias e apresenta princípios orientadores para gerenciamento de dados.
  • Zachman Framework para Arquitetura Corporativa. O Zachman Framework é uma ontologia corporativa criada por John Zachman, na IBM, na década de 1980. A coluna “dados” do Zachman Framework compreende várias camadas, incluindo padrões de arquitetura importantes para o negócio, um modelo semântico ou modelo de dados conceitual/corporativo, um modelo de dados corporativo/lógico, um modelo de dados físico e bancos de dados reais.
  • Open Group Architecture Framework (TOGAF). TOGAF é uma metodologia de arquitetura empresarial que oferece uma estrutura de alto nível para desenvolvimento de software empresarial. A Fase C do TOGAF abrange o desenvolvimento de uma arquitetura de dados e a construção de um roteiro de arquitetura de dados.

Práticas recomendadas de arquitetura de dados moderna

As arquiteturas de dados modernas devem ser projetadas para aproveitar as tecnologias emergentes, como inteligência artificial (IA), automação, internet das coisas (IoT) e blockchain. Dan Sutherland, Diretor Sênior de Consultoria de Tecnologia da Protiviti, diz que as arquiteturas de dados modernas devem seguir as seguintes práticas recomendadas:

  • Nativo da nuvem. As arquiteturas de dados modernas devem ser projetadas para oferecer suporte a dimensionamento elástico, alta disponibilidade, segurança de ponta a ponta para dados em movimento e dados em repouso e escalabilidade de custo e desempenho.
  • Pipelines de dados escaláveis. Para tirar proveito das tecnologias emergentes, as arquiteturas de dados devem oferecer suporte a streaming de dados em tempo real e rajadas de dados em microlotes.
  • Integração de dados perfeita. As arquiteturas de dados devem se integrar a aplicativos legados usando interfaces de API padrão. Eles também devem ser otimizados para compartilhar dados entre sistemas, geografias e organizações.
  • Habilitação de dados em tempo real. As arquiteturas de dados modernas devem oferecer suporte à capacidade de implantar validação, classificação, gerenciamento e governança de dados automatizados e ativos.
  • Desacoplado e extensível. As arquiteturas de dados modernas devem ser projetadas para serem facilmente acopladas, permitindo que os serviços executem tarefas mínimas independentemente de outros serviços.

Cargos de arquitetura de dados

Aqui estão alguns dos cargos mais populares relacionados à arquitetura de dados e o salário anual médio para cada cargo, de acordo com dados da PayScale:

Arquiteto de dados: US$ 79 mil a US$ 160 mil
Gerente de projeto: US$ 58 mil a US$ 129 mil
Arquiteto de soluções: US$ 76 mil a US$ 163 mil
Engenheiro de dados: US$ 66 mil a US$ 132 mil
Analista de dados: US$ 45 mil a US$ 87 mil
Cientista de dados: US$ 68 mil a US$ 136 mil

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.