Notícias

8 razões pelas quais projetos de ciência de dados falham

A ciência de dados raramente deixa de atrair o interesse de líderes de TI e de negócios atualmente. Mas ela falha.

Na verdade, as iniciativas de ciência de dados, que aproveitam métodos científicos, processos, algoritmos e sistemas de tecnologia para extrair uma variedade de insights de dados estruturados e não estruturados, podem falhar de várias maneiras, levando ao desperdício de tempo, dinheiro e outros recursos. Projetos com falhas podem resultar em mais danos do que benefícios para uma empresa, levando os tomadores de decisão ao erro.

Aqui estão alguns dos motivos mais comuns pelos quais os projetos de ciência de dados não funcionam como o esperado.

Dados de baixa qualidade

Dados ruins geram ciência de dados ruins, então é de vital importância dedicar um tempo para garantir que os dados sejam de alta qualidade. Isso é verdade para qualquer empreendimento de analytics e certamente é o caso da ciência de dados.

“Dados ruins ou sujos tornam as iniciativas de ciência de dados impossíveis”, diz Neal Riley, CIO da Adaptavist, uma consultoria de transformação digital. “Você precisa ter certeza de que seus dados estão limpos e prontos para os analistas de dados. Do contrário, é uma completa perda de tempo”.

Quando as empresas usam dados sujos para projetos de ciência de dados, elas acabam “olhando para modelos que apresentam resultados estranhos [e] vendo que não representam a realidade ou o processo de uma forma que torne as coisas melhores”, diz Riley.

Às vezes, a qualidade dos dados é ruim devido a enviesamentos ou discrepâncias nos conjuntos de dados.

“Para algumas organizações, há vários sistemas usados para administrar os negócios”, diz Brandon Jones, CIO da seguradora Worldwide Assurance for Employees of Public Agencies (WAEPA). “Para empresas experientes, você pode até ter sistemas legados que ainda são acessados [para] referência ou validação. Em muitos casos, o negócio mudou com cada sistema, levando, portanto, a diferentes processos e/ou maneiras de contar uma métrica dentro do negócio”.

Essa pode ser uma das principais causas de falha da ciência de dados, diz Jones. As descobertas podem ser aumentadas devido à contagem dupla com base em um processo de negócios modificado. “Para resolver esse problema, as organizações devem definir o nível de seu programa de data analytics”, diz ele. “Isso significa definir uma data específica em que os dados podem ser validados e todos entendem e acreditam que esse é o padrão comum a partir do qual a organização trabalhará”.

Nenhuma definição clara do problema a ser resolvido

Como uma iniciativa de ciência de dados pode ter sucesso se os membros da equipe não entendem o problema de negócios que estão tentando resolver? E, no entanto, as equipes de ciência de dados às vezes encontram essa deficiência quando solicitadas a assumir projetos.

“A definição de um problema geralmente é deixada para os cientistas de dados, quando na verdade a definição de um problema [compreende] casos de negócios que abrangem o trabalho e definem o retorno potencial do investimento”, diz Michael Roytman, Cientista-Chefe de Dados da empresa de segurança cibernética Kenna Security.

Os usuários de negócios que buscam alavancar a ciência de dados precisam fazer perguntas investigativas sobre o problema que estão tentando resolver, diz Marc Johnson, Consultor Sênior e CIO Virtual da empresa de consultoria em saúde Impact Advisors.

“Assim como em qualquer projeto, gaste tempo para bloquear o escopo do problema para identificar as fontes corretas para os dados”, diz Johnson. “Fui convidado para produzir um produto de analytics para uma empresa de 20 anos, há alguns anos. Não houve pesquisa com a base de clientes para ver se havia mercado para isso. Não houve identificação das métricas para as quais o cliente desejava visualizar a analytics. Foi tudo baseado na alegação da concorrência de que tinha um produto de analytics e boatos de que os clientes o queriam”.

O projeto durou dois anos sem direção “por causa da definição vaga de qual era o problema que estávamos tentando resolver”, diz Johnson.

Falta de dados relevantes

Outra maneira infalível de falhar com a ciência de dados é não fornecer os tipos específicos de dados necessários para resolver um problema específico.

Jogar um enorme volume de dados em um problema não é a resposta.

“Há uma suposição de que grandes volumes de dados levarão a insights, o que raramente é o caso”, diz Roytman. “Conjuntos de dados inteligentes, personalizados e, muitas vezes, menores são os que mais frequentemente fornecem modelos generalizáveis ​​robustos”.

Para obter valor da ciência de dados, deve haver um esforço contínuo para continuar a coleta de dados das fontes mais relevantes, diz Johnson. “A criação não é um evento único”, diz ele.

Conforme os dados estão sendo coletados ou adquiridos de várias fontes, as equipes precisam se certificar de que nenhuma modificação nos dados distorça os resultados e sacrifique a qualidade de todo o conjunto de dados, diz Johnson. Eles também devem se certificar de que não há problemas de privacidade, legais ou éticos com o conjunto de dados.

Falta de transparência de dados

As equipes precisam ser transparentes com os dados que usaram para construir qualquer modelo.

“Os projetos de ciência de dados falham quando as pessoas não confiam no modelo ou não entendem a solução”, diz Jack McCarthy, CIO do Judiciário do Estado de Nova Jersey. “A maneira de combater isso é que você deve ser capaz de ‘mostrar a matemática’ e comunicá-la às partes interessadas que podem não ter as habilidades técnicas ou estatísticas”.

Os cientistas de dados precisam explicar de onde vêm os dados, o que eles fizeram para calcular os modelos e fornecer acesso a todos os dados relevantes. “A transparência pode ser a chave para um projeto de sucesso”, diz McCarthy.

Um exemplo disso é o algoritmo de avaliação de risco usado em Nova Jersey. “Fornecemos a todas as partes interessadas um relatório que mostra quais casos na história de um réu se enquadram em qual categoria e como cada um é pontuado”, diz McCarthy. “Isso é fornecido a todos os adversários para que tenham a oportunidade de olhar para cada caso e desafiar sua inclusão. Tudo é feito de forma transparente”.

Relutância em reconhecer que as descobertas são incertas

Às vezes, o grupo de negócios que solicita insights ou a própria equipe de ciência de dados simplesmente não estão dispostos a concluir que as descobertas eram incertas, pouco claras ou não fortes o suficiente para um aplicativo de negócios, diz Roytman.

“É uma resposta igualmente aceitável e valiosa dizer: ‘O modelo não é bom o suficiente para gerar ROI [retorno sobre o investimento] para os negócios’”, afirma Roytman.

A equipe de ciência de dados da Kenna Security passou dois meses construindo um modelo de classificação de vulnerabilidade que geraria uma enumeração de fraqueza comum automaticamente para uma vulnerabilidade, disse Roytman. “O modelo funcionou; foi uma boa resposta para um problema de curso de pós-graduação”, diz ele. “Mas não funcionou bem o suficiente para ser valioso para os nossos clientes. [A] precisão era muito baixa. Então, descartamos o projeto, embora tivéssemos investido tempo e obtido um resultado”.

Ausência de um campeão executivo

Os esforços de ciência de dados precisam de um campeão no alto escalão, para garantir que os projetos recebam recursos e suporte suficientes.

“Ajuda se for o CIO”, diz Riley. “Vemos a ciência de dados como parte integrante de nossa operação e tenho a certeza de ser um campeão por nossos esforços”. Mesmo que os CIOs não sejam os campeões internos da ciência de dados, eles devem ser responsáveis ​​por manter todos os dados envolvidos seguros, diz ele. Mas o envolvimento deve ir muito além da segurança.

“Obter o máximo das informações que você captura é o que eu chamaria de responsabilidade de um CIO moderno”, diz Riley. “Com todos esses dados em mãos, você tem os meios para aprender com eles e usá-los de forma inteligente, e isso é algo que os CIOs podem utilizar para ajudar suas organizações em várias funções”.

A Adaptavist ganhou o máximo com seu trabalho de ciência de dados ao determinar novas táticas e modificações que podem fazer com o processo de vendas, diz Riley. “Não tem nada a ver com nosso produto ou infraestrutura de TI, marketing, nada disso”, ele diz. “Isso nos ajudou muito do ponto de vista de otimização de processos de negócios, para lidar e gerenciar melhor os leads de vendas internas”.

Falta de talento

A lacuna de habilidades está afetando muitos aspectos da TI, e a ciência de dados não é exceção. Muitas organizações simplesmente não possuem conjuntos de habilidades para manter projetos ou obter o valor máximo.

“Cientistas de dados genuínos têm alta demanda, são difíceis de encontrar e caros”, diz Tracy Huitika, CIO de Engenharia e Dados da Beanworks, provedora de automação de contas a pagar baseado em nuvem. “A posição geralmente requer um PhD em física ou ciências, bem como a habilidade de escrever código em R e Python”.

Um dos maiores motivos pelos quais os projetos de ciência de dados falham, mesmo quando chegam à implantação, é a falta de talento operacional para continuar gerenciando o projeto, diz Johnson. “Pegar um cientista de dados brilhante para criar o modelo sem um plano para executar as operações de melhoria contínua com ajustes para mudanças de mercado e dados é como projetar um carro e entregar as chaves a uma criança de 10 anos”, diz ele.

As empresas precisam ter os conjuntos de habilidades certos para manter o modelo depois que ele entrar em produção, seja por meio da contratação ou de especialistas externos, como consultores que são bem versados ​​em ciência de dados.

A ciência de dados não era a solução certa

E se um problema específico não exigisse ciência de dados como solução em primeiro lugar? Esse uso equivocado da disciplina pode levar ao fracasso, então vale a pena pensar muito sobre quando aplicar e quando não aplicar métodos, processos e ferramentas de ciência de dados.

“Uma das maiores coisas que farão com que os projetos de ciência de dados falhem é se a ciência de dados, algoritmos e machine learning não forem a solução certa”, diz Riley.

“Você pode não precisar de um modelo de machine learning; você pode precisar de uma regressão simples e pode gastar muito tempo e esforço passando por todas as diferentes permutações sem uso para ciência de dados”, diz Riley. “Fomos pegos em uma daquelas situações em que estávamos olhando para a modelagem de ciência de dados financeiros para visualizar preditores de sucesso financeiro futuro para linhas de nosso negócio. Descobriu-se que a melhor coisa a usar era apenas regressão estatística”.

Recent Posts

HP lança programa para parceiros focado em venda de IA

A HP anunciou essa semana o “go-live” de um conjunto de novos benefícios para parceiros…

41 minutos ago

Visa aprimora uso de IA generativa em solução de pontuação antifraude

A bandeira internacional de pagamento Visa intensificou o uso de inteligência artificial generativa (GenAI) em…

2 horas ago

Roost moderniza rede da Unesp com soluções da Extreme Networks

A infraestrutura de rede da Universidade Estadual Paulista (Unesp) será modernizada usando tecnologia da Extreme…

2 horas ago

Tecnologia de captura direta de carbono avança com inauguração de nova planta na Islândia

Foi inaugurada em Hellisheiði, na Islândia, a planta Mammoth, a maior do mundo para captura…

3 horas ago

Pagamentos por aproximação lideram transações no Brasil com 59% do total

Pagamentos por aproximação (ou contactless) alcançaram a marca de 2 milhões de transações por hora,…

3 horas ago

Onda de demissões na Tesla segue com chance de novos cortes

A Tesla, referência no mercado de veículos elétricos, continua a enfrentar uma onda de demissões…

4 horas ago