O check list essencial para a democratização de dados eficaz

Para se tornarem orientadas por dados, as empresas precisam de uma estratégia de democratização que seja igualmente disciplinada e diversa

Author Photo
9:30 am - 26 de janeiro de 2023
gerente de produtos, análise, analytics Foto: Shutterstock

As empresas verdadeiramente orientadas por dados obtêm resultados de negócios significativamente melhores do que aquelas que não são. De acordo com um white paper recente do IDC, os líderes obtiveram, em média, resultados duas vezes e meia melhores do que outras organizações em muitas métricas de negócios. Em particular, as empresas líderes no uso de dados e analytics tiveram uma melhoria três vezes maior nas receitas, foram quase três vezes mais propensas a relatar tempos mais curtos de lançamento de novos produtos e serviços no mercado e duas vezes mais propensas a relatar melhoria na satisfação do cliente, lucros e eficiência operacional.

Mas, para obter o valor máximo de dados e analytics, as empresas precisam ter uma cultura orientada por dados que permeie toda a organização, na qual cada unidade de negócios tenha acesso total aos dados de que precisa da maneira que precisa.

Isso se chama democratização de dados. Fazer isso corretamente requer uma coleta de dados cuidadosa, seleção cuidadosa de uma plataforma de dados que permita acesso holístico e seguro aos dados e treinamento e capacitação de funcionários para que tenham uma mentalidade de dados em primeiro lugar. Os riscos de segurança e conformidade também aparecem.

Começar com uma base sólida de dados

Antes de escolher uma plataforma para compartilhar dados, uma organização precisa entender quais dados já possui e removê-los de erros e duplicatas.

Uma grande parte da preparação de dados para serem compartilhados é um exercício de normalização de dados, diz Juan Orlandini, Arquiteto-Chefe e Engenheiro Distinto da Insight Enterprises.

Formatos de dados e arquiteturas de dados geralmente são inconsistentes e os dados podem até estar incompletos. “De repente, você está tentando fornecer esses dados a alguém que não é uma pessoa que lida com dados”, diz ele, “e é muito fácil para eles extrair informações errôneas ou enganosas desses dados”.

As organizações geralmente recorrem a ajuda externa com a normalização de dados porque, se feito incorretamente, uma empresa ainda pode ficar com problemas de qualidade de dados e pode não obter tanto uso de seus dados como pretendido.

À medida que mais empresas usam a nuvem e o desenvolvimento nativo da nuvem, a normalização dos dados se torna mais complicada.

“Pode ser em um banco de dados NoSQL, um banco de dados gráfico ou em todos esses outros tipos de bancos de dados agora disponíveis, e torná-los consistentes torna-se realmente desafiador”, diz Orlandini.

Exercitar a seleção de plataforma com tato

Em muitos casos, apenas a TI tem acesso aos dados e ferramentas de inteligência de dados em organizações que não praticam a democratização de dados. Portanto, para tornar os dados acessíveis a todos, novas ferramentas e tecnologias são necessárias.

Obviamente, o custo é uma grande consideração, diz Orlandini, além de decidir onde hospedar os dados e disponibilizá-los de maneira fiscalmente responsável. Uma organização também pode questionar se os dados devem ser mantidos no local devido a questões de segurança na nuvem pública. Mas Kevin Young, Consultor Sênior de Dados e Analytics da empresa de consultoria SPR, diz que as organizações podem primeiro compartilhar dados criando um data lake como o Amazon S3 ou o Google Cloud Storage. “Os membros de toda a organização podem adicionar seus dados ao lago para consumo de todos os departamentos”, diz Young. Mas sem os devidos cuidados, um data lake pode acabar desorganizado e cheio de dados inutilizáveis. A maioria das organizações não acaba com data lakes, diz Orlandini. “Eles têm pântanos de dados”, diz ele.

Mas os data lakes não são a única opção para criar um repositório de dados centralizado.

Outra é por meio de uma estrutura de dados, uma arquitetura e um conjunto de serviços de dados que fornecem uma visão unificada dos dados de uma organização e permitem a integração de várias fontes no local, na nuvem e em dispositivos de ponta.

Uma data fabric permite que conjuntos de dados sejam combinados, sem a necessidade de fazer cópias, e pode tornar os silos menos prováveis.

Existem muitos fornecedores de software de data fabric, como IBM Cloud Pak for Data e SAP Data Intelligence, que foram nomeados líderes no relatório Enterprise Data Fabric Q2 2022 da Forrester. Mas com tantas opções disponíveis, pode ser difícil saber qual escolher.

O mais importante é analisar e monitorar os dados, diz Amaresh Tripathy, Líder Global de Analytics da empresa de serviços profissionais Genpact.

“Muitas plataformas estão por aí”, diz ele. “Escolha qualquer plataforma que funcione para você, mas ela deve ser automatizada e visível”. Além disso, os dados devem ser facilmente acessíveis a partir de uma plataforma de autoatendimento que facilite a geração de relatórios de análise de dados, mesmo para pessoas sem experiência técnica — “Como um portal onde as pessoas podem ver todos os dados, o que significam, quais são as métricas, e de onde está vindo”, diz Tripathy.

Não existe uma ferramenta perfeita e geralmente há uma compensação entre o quão bem uma ferramenta faz a linhagem de dados, a catalogação de dados e a manutenção da qualidade dos dados. “A maioria das organizações está tentando resolver todos os três problemas juntos”, acrescenta Tripathy. “Às vezes, você indexa demais em um e não obtém um valor muito bom em outro”. Portanto, uma organização deve decidir o que é mais importante, diz ele. “Eles devem saber por que estão fazendo isso, qual ferramenta oferece o melhor retorno nessas três dimensões e, então, tomar a decisão apropriada”.

Ao pensar em como compartilhar dados, uma organização também pode considerar a implementação de uma data mesh, que adota a abordagem oposta à data fabric. Enquanto a data fabric gerencia várias fontes de dados de um único sistema virtual centralizado, uma data mesh é uma forma de arquitetura de dados corporativos que adota uma abordagem descentralizada e cria vários sistemas específicos de domínio.

Com uma data mesh, as organizações podem ajudar a garantir que os dados sejam tratados adequadamente, colocando-os nas mãos de quem melhor os entende, diz Chris McLellan, Diretor de Operações da Data Collaboration Alliance, uma organização sem fins lucrativos global que ajuda pessoas e organizações a obter controle total de seus dados. Pode ser uma pessoa, como o chefe de finanças, ou um grupo de pessoas que atuam como administradores de dados.

“Em sua essência, ele tem esse conceito de dados como um produto”, diz ele. “E um produto de dados é algo que pode pertencer e ser curado por alguém com experiência no domínio”.

A implementação de uma arquitetura data mesh permite que uma organização coloque conjuntos de dados específicos nas mãos de especialistas no assunto. “Essas pessoas estão mais próximas dos regulamentos, do cliente e dos usuários finais”, diz McLellan. “Eles estão mais próximos de tudo sobre esse domínio específico de informação”.

A data mesh não está vinculada a nenhuma ferramenta específica, portanto, as equipes individuais podem escolher a que melhor atende às suas necessidades, e não há o gargalo de tudo ter que passar por uma equipe central de dados.

“Você está vendo uma descentralização não apenas de TI ou entrega de aplicativos, mas também de gerenciamento de dados e governança de dados”, diz McLellan, “o que é bom porque os profissionais de marketing conhecem as leis sobre proteção do consumidor melhor do que a equipe de TI, e o setor financeiro conhece regulamentações financeiras melhor do que TI”.

Embora existam muitos fornecedores vendendo data mesh, ainda é algo novo e brilhante, adverte Forrester, e tem seus desafios, incluindo conflitos em como é definido, as tecnologias que usa e seu valor.

Gestão de treinamento e mudança

Uma vez estabelecida uma arquitetura para democratização de dados, os funcionários precisam entender como trabalhar com os novos processos de dados. As pessoas podem receber os dados certos, mas mesmo que sejam treinadas como administradores ou contadores, não necessariamente saberão o que fazer com eles, diz Orlandini, da Insight. O acesso aos dados não é suficiente por si só para tornar uma organização orientada por dados. “Você tem que fazer algum treinamento”, diz ele. “Se você não fizer isso corretamente, terá sucesso misto na melhor das hipóteses, ou pode ser um fracasso”.

Algumas organizações iniciaram seus próprios programas de treinamento interno para garantir que os funcionários entendam como interpretar e lidar adequadamente com os dados.

A Genpact, por exemplo, introduziu o que chama de iniciativa DataBridge no ano passado para aumentar a alfabetização de dados em toda a organização.

“Nossa intenção não era transformar 100.000 pessoas em cientistas de dados cidadãos”, diz Tripathy. “Nós fornecemos a consciência no contexto de como eles fazem seu trabalho”. Por exemplo, um funcionário que faz análise de sinistros não precisa aprender tudo sobre detecção de anomalias — o que eles precisam entender é o que a detecção de anomalias significa para eles. “Você pode ou não ter todos os conjuntos de habilidades para examinar os dados por conta própria, mas deve ser capaz de fazer uma pergunta e buscar ajuda – e ser capaz de fazer essa pergunta da maneira certa é o aspecto de reconhecimento de dados”, ele adiciona.

Estabelecer as bases de segurança e conformidade

A governança de dados adequada precisa ser implementada desde o início para manter a integridade dos dados e evitar multas dispendiosas.

Juntamente com os líderes de TI, as equipes de segurança e conformidade precisam fazer parte da conversa inicial, diz Orlandini, da Insight. “É um grande desafio e muitas organizações lutam com isso”, diz ele, acrescentando que é um pré-requisito que a liderança da empresa entenda exatamente o que está oferecendo para compartilhar e garanta que está sendo oferecido às pessoas certas.

“Vivemos em um mundo altamente regulamentado, onde temos que ser supercuidadosos”, diz ele, “especialmente em setores como saúde e finanças, onde existem leis que têm consequências graves se você permitir que a pessoa errada tenha acesso aos dados errados”.

Também existem ferramentas que ajudam as organizações com mascaramento e ofuscação de dados para evitar a revelação de informações de identificação pessoal. “Você pode começar a obter insights sem revelar dados PII, registros HIPAA ou qualquer um dos requisitos regulatórios existentes”, continua ele. “Também existem ferramentas com controles de acesso baseados em atributos onde você realmente marca os dados com tipos muito específicos de atributos – isso tem PII ou HIPAA, quaisquer que sejam seus atributos – e então você só tem acesso aos dados com o tipo certo de atributos associados a isso”.

Dessa forma, os dados controlam-se automaticamente e ficam disponíveis em nuvem pública ou ambiente híbrido com dados em vários locais, ou mesmo em ambientes privados com rígidos controles de conformidade que podem ser implementados.

Benefícios a longo prazo

A democratização de dados pode não apenas ajudar uma empresa a acelerar seus pipelines de dados, mas também capacitar as pessoas a encontrar novas maneiras de resolver problemas por meio de uma melhor conscientização de como analisar e trabalhar com dados.

O Gartner diz que, ao adotar a democratização de dados, as organizações podem resolver a escassez de recursos, diminuir os gargalos e permitir que as unidades de negócios lidem com suas próprias solicitações de dados com mais facilidade. Ao democratizar os dados, as organizações podem melhorar sua tomada de decisão, permitindo que mais pessoas contribuam para a análise e interpretação dos dados; aumentar a colaboração entre equipes dentro de uma organização; e aumentar a transparência, pois mais pessoas têm acesso às informações e podem ver como as decisões baseadas em dados são tomadas.

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.