Desbloqueando o valor oculto dos dados obscuros

As chances são de que a maioria dos dados que você coleta – de comunicações humanas a logs de máquina – esteja se acumulando com pouco plano para real

Author Photo
4:45 pm - 19 de agosto de 2022
dados abertos, data center, conectividade

Os líderes de TI que buscam obter valor comercial dos dados que suas empresas coletam enfrentam inúmeros desafios. Talvez o menos compreendido seja a oportunidade perdida de não fazer valer os dados que são criados e muitas vezes armazenados, mas raramente interagem de outra forma.

Esses chamados “dados obscuros”, nomeados em homenagem à matéria escura da física, são informações coletadas rotineiramente no decorrer dos negócios: são geradas por funcionários, clientes e processos de negócios. Eles são gerados como arquivos de log por máquinas, aplicativos e sistemas de segurança. São documentos que devem ser salvos para fins de conformidade e dados confidenciais que nunca devem ser salvos, mas ainda são.

De acordo com o Gartner, a maior parte do universo de informações da sua empresa é composta de “dados obscuros” e muitas empresas nem sabem quanto desses dados possuem. Armazená-los aumenta os riscos de conformidade e segurança cibernética e, é claro, isso também aumenta os custos.

Descobrir quais dados obscuros você possui, onde são mantidos e quais informações estão neles é uma etapa essencial para garantir que as partes valiosas desses dados obscuros estejam seguras e aquelas que não devem ser mantidas sejam excluídas. Mas a verdadeira vantagem de desenterrar esses bolsões de dados ocultos pode ser colocá-los em uso para realmente beneficiar os negócios.

Mas a mineração de dados obscuros não é tarefa fácil. Eles vêm em uma ampla variedade de formatos, podem ser completamente não formatados, trancados em documentos digitalizados ou arquivos de áudio ou vídeo, por exemplo.

Veja como algumas organizações estão transformando dados obscuros em oportunidades de negócios e quais conselhos os especialistas do setor têm para os líderes de TI que desejam aproveitar os dados obscuros.

Áudio codificado de pilotos de carros de corrida

Há cinco anos, a Envision Racing coleta gravações de áudio de mais de 100 corridas de Fórmula E, cada uma com mais de 20 pilotos.

“Os fluxos de rádio estão disponíveis em frequências abertas para qualquer pessoa ouvir”, diz Amaresh Tripathy, Líder Global de Análise da Genpact, uma empresa de consultoria que ajudou a Envision Racing a usar esses dados.

Anteriormente, os engenheiros de corrida da equipe de corrida sediada no Reino Unido tentavam usar essas transmissões de áudio em tempo real durante as corridas, mas os nomes de código e acrônimos usados pelos pilotos tornavam difícil descobrir o que estava sendo dito e como isso poderia ser usado, pois entender o que outros pilotos estavam dizendo poderia ajudar os pilotos da Envision Racing com sua estratégia de corrida, diz Tripathy.

“Como quando usar o modo de ataque. Quando ultrapassar um motorista. Quando usar os freios”, diz ele.

A Envision Racing também estava coletando dados de sensores de seus próprios carros, como pneus, baterias e freios, e comprando dados externos de fornecedores, como velocidade do vento e precipitação.

A Genpact e a Envision Racing trabalharam juntas para liberar o valor desses fluxos de dados, fazendo uso do processamento de linguagem natural para construir modelos de aprendizado profundo para analisá-los. O processo levou seis meses, desde a preparação do pipeline de dados até a ingestão dos dados, a filtragem de ruídos e a obtenção de conversas significativas.

Tripathy diz que os humanos levam de cinco a dez segundos para descobrir o que estão ouvindo, um atraso que tornou as comunicações de rádio irrelevantes. Agora, graças às previsões e insights do modelo de IA, eles podem responder em um ou dois segundos.

Em julho, no Campeonato Mundial de Fórmula E da ABB FIA em Nova York, a equipe Envision Racing ficou em primeiro e terceiro lugares, resultado que a Tripathy atribui ao uso de dados anteriormente obscuros.

Dark data gold: dados gerados por humanos

Os arquivos de áudio da Envision Racing são um exemplo de dados obscuros gerados por humanos, destinados ao consumo por outros humanos – não por máquinas. Esse tipo de dados obscuros pode ser extremamente útil para empresas, diz Kon Leong, cofundador e CEO da ZL Technologies, provedor de plataforma de arquivamento de dados.

“É incrivelmente poderoso para entender todos os elementos do lado humano da empresa, incluindo cultura, desempenho, influência, experiência e engajamento”, diz ele. “Os funcionários compartilham quantidades absolutamente massivas de informações e conhecimentos digitais todos os dias, mas até agora isso tem sido amplamente inexplorado”.

As informações contidas em e-mails, mensagens e arquivos podem ajudar as organizações a obter insights, como quem são as pessoas mais influentes na organização. “Oitenta por cento do tempo da empresa é gasto em comunicação. No entanto, a análise geralmente lida com dados que refletem apenas 1% do nosso tempo gasto”, diz Leong.

O processamento de dados não estruturados gerados por humanos é um desafio único. Os data warehouses normalmente não são configurados para lidar com essas comunicações, por exemplo. Além disso, coletar essas comunicações pode criar novos problemas para as empresas lidarem, relacionados à conformidade, privacidade e descoberta jurídica.

“Esses recursos de governança não estão presentes no conceito atual de data lake e, na verdade, ao coletar dados em um data lake, você cria outro silo que aumenta os riscos de privacidade e conformidade”, diz Leong.

Em vez disso, as empresas também podem deixar esses dados onde residem atualmente, simplesmente adicionando uma camada de indexação e metadados para pesquisa. Deixar os dados no lugar também os manterá dentro das estruturas de conformidade existentes, diz ele.

Governança eficaz é fundamental

Outra abordagem para lidar com dados obscuros de valor e origem questionáveis é começar com a rastreabilidade.

“É um desenvolvimento positivo na indústria que os dados obscuros agora sejam reconhecidos como um recurso inexplorado que pode ser aproveitado”, diz Andy Petrella, autor de Fundamentals of Data Observability, atualmente disponível em formato de pré-lançamento da O’Reilly. Petrella também é o fundador do provedor de observabilidade de dados Kensu.

“O desafio de utilizar dados obscuros são os baixos níveis de confiança neles”, diz ele, em particular sobre onde e como os dados são coletados. “A observabilidade pode tornar a linhagem de dados transparente e, portanto, rastreável. A rastreabilidade permite verificações de qualidade de dados que levam à confiança no emprego desses dados para treinar modelos de IA ou agir com base na inteligência que ela traz”.

Chuck Soha, Diretor Administrativo da StoneTurn, empresa de consultoria global especializada em questões regulatórias, de risco e conformidade, concorda que a abordagem comum para lidar com dados obscuros – jogar tudo em um data lake – apresenta riscos significativos.

Isso é particularmente verdadeiro no setor de serviços financeiros, diz ele, onde as empresas enviam dados para data lakes há anos. “Em uma empresa típica, o departamento de TI despeja todos os dados disponíveis à sua disposição em um só lugar com alguns metadados básicos e cria processos para compartilhar com as equipes de negócios”, diz ele.

Isso funciona para equipes de negócios que possuem o talento analítico necessário internamente ou que trazem consultores externos para casos de uso específicos. Mas, na maioria das vezes, essas iniciativas são apenas parcialmente bem-sucedidas, diz Soha.

“Os CIOs passaram de ‘não saber o que não sabem’ para ‘saber o que não sabem’”, diz ele.

Em vez disso, as empresas devem começar com a governança de dados para entender quais dados existem e quais problemas podem ter, sendo a qualidade de dados o principal deles.

“As partes interessadas podem decidir se devem limpá-lo e padronizá-lo ou apenas recomeçar com melhores práticas de gerenciamento de informações”, diz Soha, acrescentando que investir na extração de insights de dados que contêm informações inconsistentes ou conflitantes seria um erro.

Soha também aconselha conectar os pontos entre bons dados operacionais já disponíveis em unidades de negócios individuais. Descobrir essas relações pode criar insights rápidos e úteis que podem não exigir a análise imediata de dados obscuros, diz ele. “E também pode identificar lacunas que poderiam priorizar onde os dados obscuros começariam a procurar preencher essas lacunas”.

Finalmente, ele diz, a IA pode ser muito útil para ajudar a entender os dados não estruturados que permanecem. “Ao usar técnicas de machine learning e IA, os humanos podem analisar apenas 1% dos dados obscuros e classificar sua relevância”, diz ele. “Então, um modelo de aprendizado por reforço pode produzir rapidamente pontuações de relevância para os dados restantes para priorizar quais dados examinar mais de perto”.

Usando IA para extrair valor

As soluções comuns baseadas em IA para processamento de dados obscuros incluem Textract, da Amazon; Azure Cognitive Services, da Microsoft; e Datacap, da IBM, além das APIs Cloud Vision, Document, AutoML e NLP do Google.

Na parceria da Genpact com a Envision Racing, a Genpact codificou os algoritmos de machine learning internamente, diz Tripathy. Isso exigia conhecimento de Docker, Kubernetes, Java e Python, bem como NLP, deep learning e desenvolvimento de algoritmos de machine learning, diz ele, acrescentando que um arquiteto de MLOps gerenciou todo o processo.

Infelizmente, essas habilidades são difíceis de encontrar. Em um relatório divulgado no outono [norte-americano] passado pela Splunk, apenas 10% a 15% dos mais de 1.300 tomadores de decisão de TI e negócios pesquisados disseram que suas organizações estão usando IA para resolver o problema dos dados obscuros. A falta de habilidades necessárias foi o principal obstáculo ao uso de dados obscuros, perdendo apenas para o volume dos próprios dados.

Um problema (e oportunidade) em ascensão

Enquanto isso, os dados obscuros continuam sendo um tesouro crescente de risco – e oportunidade. As estimativas da parte dos dados corporativos que estão escuros variam de 40% a 90%, dependendo do setor.

De acordo com um relatório de julho do Enterprise Strategy Group e patrocinado pela Quest, 47% de todos os dados são dados obscuros, em média, com um quinto dos entrevistados dizendo que mais de 70% de seus dados são dados obscuros. A pesquisa da Splunk mostrou resultados semelhantes, com 55% de todos os dados corporativos, em média, sendo dados obscuros, e um terço dos entrevistados dizendo que 75% ou mais dos dados de sua organização são obscuros.

E é provável que a situação piore antes de melhorar, pois 60% dos entrevistados dizem que mais da metade dos dados em sua organização não são capturados e muitos deles nem sequer são compreendidos. À medida que esses dados são encontrados e armazenados, a quantidade de dados obscuros continuará aumentando.

Já é hora de os CIOs elaborarem um plano sobre como lidar com isso – com o objetivo de aproveitar ao máximo quaisquer dados obscuros que se mostrem promissores na criação de novo valor para os negócios.

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.