8 desastres famosos de analytics e IA
Insights de algoritmos de machine learning e dados podem ser inestimáveis, mas erros podem custar sua reputação, receita ou até mesmo vidas
Em 2017, o The Economist declarou que os dados, em vez do petróleo, se tornaram o recurso mais valioso do mundo. O refrão foi repetido desde então. Organizações em todos os setores têm investido fortemente em dados e analytics. Mas, como o petróleo, dados e analytics têm seu lado obscuro.
De acordo com o relatório State of the CIO 2023, 34% dos líderes de TI dizem que dados e analytics de negócios impulsionarão o maior investimento em TI em sua organização este ano. E 26% dos líderes de TI dizem que machine learning/inteligência artificial impulsionará o maior investimento em TI. Os insights obtidos a partir de analytics e ações orientadas por algoritmos de machine learning podem dar às organizações uma vantagem competitiva, mas os erros podem custar caro em termos de reputação, receita ou até vidas.
Compreender seus dados e o que eles estão dizendo é importante, mas também é importante entender suas ferramentas, conhecer seus dados e manter os valores de sua organização em mente.
Aqui estão algumas análises de alto nível e erros de IA da última década para ilustrar o que pode dar errado.
ChatGPT alucina processos judiciais
Os avanços feitos em 2023 por grandes modelos de linguagem (LLMs) alimentaram o interesse generalizado no potencial transformador da IA generativa em quase todos os setores. O ChatGPT da OpenAI tem estado no centro desse aumento de interesse, prenunciando como a IA generativa detém o poder de interromper a natureza do trabalho em quase todos os cantos dos negócios.
Mas a tecnologia ainda tem um longo caminho a percorrer antes que possa assumir de forma confiável a maioria dos processos de negócios, como o advogado Steven A. Schwartz aprendeu quando se viu em maus lençóis com o juiz distrital dos EUA P. Kevin Castel em 2023, depois de usar o ChatGPT para pesquisar precedentes em um processo contra a companhia aérea colombiana Avianca.
Schwartz, um advogado da Levidow, Levidow & Oberman, usou o chatbot de IA generativa da OpenAI para encontrar casos anteriores para apoiar um caso aberto pelo funcionário da Avianca, Roberto Mata, por ferimentos sofridos em 2019. O único problema? Pelo menos seis dos casos apresentados no escrito não existiam. Em um documento arquivado em maio, o juiz Castel observou que os casos apresentados por Schwartz incluíam nomes e números de processos falsos, juntamente com falsas citações e citações internas.
Em uma declaração juramentada, Schwartz disse ao tribunal que foi a primeira vez que usou o ChatGPT como fonte de pesquisa legal e que “não tinha conhecimento da possibilidade de que seu conteúdo pudesse ser falso”. Ele admitiu que não havia confirmado as fontes fornecidas pelo chatbot AI. Ele também disse que “lamenta muito ter utilizado inteligência artificial generativa para complementar a pesquisa jurídica aqui realizada e nunca o fará no futuro sem verificação absoluta de sua autenticidade”.
Em junho de 2023, Schwartz enfrentava possíveis sanções do tribunal.
Algoritmos de IA identificam tudo, menos a Covid-19
Desde o início da pandemia de Covid-19, várias organizações procuraram aplicar algoritmos de machine learning (ML) para ajudar os hospitais a diagnosticar ou triar pacientes mais rapidamente. Mas de acordo com o Turing Institute do Reino Unido, um centro nacional de ciência de dados e IA, as ferramentas preditivas fizeram pouca ou nenhuma diferença.
O MIT Technology Review registrou uma série de falhas, a maioria das quais decorre de erros na forma como as ferramentas foram treinadas ou testadas. O uso de dados rotulados incorretamente ou dados de fontes desconhecidas era um culpado comum.
Derek Driggs, pesquisador de machine learning da Universidade de Cambridge, juntamente com seus colegas, publicou um artigo na Nature Machine Intelligence que explorou o uso de modelos de deep learning para diagnosticar o vírus. O artigo determinou que a técnica não é adequada para uso clínico. Por exemplo, o grupo de Driggs descobriu que seu próprio modelo estava falho porque foi treinado com um conjunto de dados que incluía exames de pacientes deitados enquanto eram escaneados e pacientes em pé. Os pacientes que estavam deitados tinham uma probabilidade muito maior de estar gravemente doentes, então o algoritmo aprendeu a identificar o risco de Covid com base na posição da pessoa no exame.
Um exemplo semelhante inclui um algoritmo treinado com um conjunto de dados que incluía varreduras de tórax de crianças saudáveis. O algoritmo aprendeu a identificar crianças, não pacientes de alto risco.
Zillow abateu milhões de dólares e cortou a força de trabalho devido ao desastre algorítmico
Em novembro de 2021, a plataforma do mercado imobiliário on-line Zillow disse aos acionistas que encerraria suas operações de Zillow Offers e cortaria 25% da força de trabalho da empresa – cerca de 2.000 funcionários – nos próximos trimestres. Os problemas da unidade de mudança de casa foram resultado da taxa de erro no algoritmo de machine learning usado para prever os preços das casas.
O Zillow Offers era um programa por meio do qual a empresa fazia ofertas em dinheiro em propriedades com base em um “Zestimate” de valores residenciais derivados de um algoritmo de machine learning. A ideia era reformar os imóveis e lançá-los rapidamente. Mas um porta-voz da Zillow disse à CNN que o algoritmo tinha uma taxa média de erro de 1,9%, e a taxa de erro poderia ser muito maior, até 6,9%, para casas fora do mercado.
A CNN informou que Zillow comprou 27.000 casas por meio de Zillow Offers desde seu lançamento em abril de 2018, mas vendeu apenas 17.000 até o final de setembro de 2021. Eventos como a pandemia de Covid-19 e uma escassez de mão de obra para reforma contribuíram para os problemas de precisão do algoritmo.
A Zillow disse que o algoritmo levou a compras involuntárias de casas a preços mais altos do que suas estimativas atuais de preços de venda futuros, resultando em uma redução de estoque de US$ 304 milhões no terceiro trimestre de 2021.
Em uma teleconferência com investidores após o anúncio, o cofundador e CEO da Zillow, Rich Barton, disse que pode ser possível ajustar o algoritmo, mas, em última análise, é muito arriscado.
O Reino Unido perdeu milhares de casos de Covid ao exceder o limite de dados da planilha
Em outubro de 2020, o Public Health England (PHE), órgão do governo do Reino Unido responsável por registrar novas infecções por Covid-19, revelou que quase 16.000 casos de coronavírus não foram relatados entre 25 de setembro e 2 de outubro. Limitações de dados no Microsoft Excel.
O PHE usa um processo automatizado para transferir resultados laboratoriais positivos para Covid-19 como um arquivo CSV para modelos do Excel usados por painéis de relatórios e para rastreamento de contatos. Infelizmente, as planilhas do Excel podem ter no máximo 1.048.576 linhas e 16.384 colunas por planilha. Além disso, o PHE listava os casos em colunas e não em linhas. Quando os casos excederam o limite de 16.384 colunas, o Excel cortou os 15.841 registros na parte inferior.
A “falha” não impediu que os indivíduos que fizeram o teste recebessem seus resultados, mas bloqueou os esforços de rastreamento de contatos, tornando mais difícil para o Serviço Nacional de Saúde do Reino Unido (NHS) identificar e notificar indivíduos que estiveram em contato próximo com pacientes infectados. Em uma declaração em 4 de outubro, Michael Brodie, Executivo-Chefe Interino da PHE, disse que o NHS Test and Trace e o PHE resolveram o problema rapidamente e transferiram todos os casos pendentes imediatamente para o sistema de rastreamento de contatos NHS Test and Trace.
A PHE implementou uma “mitigação rápida” que divide arquivos grandes e realizou uma revisão completa de ponta a ponta de todos os sistemas para evitar incidentes semelhantes no futuro.
O algoritmo de assistência médica falhou ao sinalizar pacientes negros
Em 2019, um estudo publicado na Science revelou que um algoritmo de previsão de saúde, usado por hospitais e seguradoras nos Estados Unidos para identificar pacientes que precisam de programas de “gerenciamento de cuidados de alto risco”, tinha muito menos probabilidade de destacar pacientes negros.
Os programas de gerenciamento de cuidados de alto risco fornecem equipe de enfermagem treinada e monitoramento de cuidados primários para pacientes com doenças crônicas em um esforço para prevenir complicações graves. Mas o algoritmo era muito mais propenso a recomendar pacientes brancos para esses programas do que pacientes negros.
O estudo descobriu que o algoritmo usava gastos com saúde como um proxy para determinar a necessidade de saúde de um indivíduo. Mas, de acordo com a Scientific American, os custos de saúde de pacientes negros mais doentes eram equivalentes aos custos de pessoas brancas mais saudáveis, o que significava que eles recebiam pontuações de risco mais baixas mesmo quando sua necessidade era maior.
Os pesquisadores do estudo sugeriram que alguns fatores podem ter contribuído. Em primeiro lugar, as pessoas de cor são mais propensas a ter rendas mais baixas, o que, mesmo quando seguradas, pode torná-las menos propensas a ter acesso a cuidados médicos. O viés implícito também pode fazer com que pessoas de cor recebam atendimento de qualidade inferior.
Embora o estudo não tenha identificado o algoritmo ou o desenvolvedor, os pesquisadores disseram à Scientific American que estavam trabalhando com o desenvolvedor para resolver a situação.
Dataset treinou chatbot da Microsoft para lançar tweets racistas
Em março de 2016, a Microsoft descobriu que usar as interações do Twitter como dados de treinamento para algoritmos de machine learning pode ter resultados desanimadores.
A Microsoft lançou o Tay, um chatbot de IA, na plataforma de mídia social. A empresa o descreveu como um experimento de “compreensão conversacional”. A ideia era que o chatbot assumisse a personalidade de uma adolescente e interagisse com os indivíduos via Twitter usando uma combinação de machine learning e processamento de linguagem natural. A Microsoft o semeou com dados públicos anônimos e algum material pré-escrito por comediantes, depois o soltou para aprender e evoluir a partir de suas interações na rede social.
Em 16 horas, o chatbot postou mais de 95.000 tweets, e esses tweets rapidamente se tornaram abertamente racistas, misóginos e antissemitas. A Microsoft suspendeu rapidamente o serviço para ajustes e, por fim, desligou.
“Lamentamos profundamente os tweets ofensivos e prejudiciais não intencionais de Tay, que não representam quem somos ou o que defendemos, nem como projetamos Tay”, escreveu Peter Lee, Vice-Presidente Corporativo da Microsoft Research & Incubations (então Vice-Presidente Corporativo da Microsoft Healthcare), em um post no blog oficial da Microsoft após o incidente.
Lee observou que o antecessor de Tay, Xiaoice, lançado pela Microsoft na China em 2014, teve conversas bem-sucedidas com mais de 40 milhões de pessoas nos dois anos anteriores ao lançamento de Tay. O que a Microsoft não levou em consideração foi que um grupo de usuários do Twitter começaria imediatamente a twittar comentários racistas e misóginos para Tay. O bot aprendeu rapidamente com esse material e o incorporou em seus próprios tweets.
“Embora estivéssemos preparados para muitos tipos de abusos do sistema, fizemos uma supervisão crítica para esse ataque específico. Como resultado, Tay twittou palavras e imagens extremamente inapropriadas e repreensíveis”, escreveu Lee.
A ferramenta de recrutamento habilitada para IA da Amazon recomenda apenas homens
Como muitas grandes empresas, a Amazon está ávida por ferramentas que possam ajudar sua função de RH a selecionar aplicativos para os melhores candidatos. Em 2014, a Amazon começou a trabalhar em um software de recrutamento baseado em IA para fazer exatamente isso. Havia apenas um problema: o sistema preferia candidatos do sexo masculino. Em 2018, a Reuters deu a notícia de que a Amazon havia descartado o projeto.
O sistema da Amazon deu aos candidatos classificações de estrelas de 1 a 5. Mas os modelos de machine learning no centro do sistema foram treinados em 10 anos de currículos enviados à Amazon – a maioria deles de homens. Como resultado desses dados de treinamento, o sistema começou a penalizar frases no currículo que incluíam a palavra “feminino” e até mesmo rebaixar candidatos de faculdades só para mulheres.
Na época, a Amazon disse que a ferramenta nunca foi usada pelos recrutadores da Amazon para avaliar candidatos.
A empresa tentou editar a ferramenta para torná-la neutra, mas acabou decidindo que não poderia garantir que não aprenderia alguma outra forma discriminatória de classificar os candidatos e encerrou o projeto.
Analytics da Target violou a privacidade
Em 2012, um projeto de analytics da gigante do varejo Target mostrou o quanto as empresas podem aprender sobre os clientes a partir de seus dados. De acordo com o New York Times, em 2002, o departamento de marketing da Target começou a se perguntar como poderia determinar se as clientes estavam grávidas. Essa linha de investigação levou a um projeto de análise preditiva que levaria o varejista a revelar inadvertidamente à família de uma adolescente que ela estava grávida. Isso, por sua vez, levaria a todos os tipos de artigos e blogs de marketing citando o incidente como parte do conselho para evitar o “fator repugnante”.
O departamento de marketing da Target queria identificar as grávidas porque há certos períodos na vida – a gravidez em primeiro lugar – quando as pessoas têm maior probabilidade de mudar radicalmente seus hábitos de compra. Se a Target conseguisse alcançar os clientes naquele período, poderia, por exemplo, cultivar novos comportamentos nesses clientes, levando-os a recorrer à Target para comprar mantimentos, roupas ou outros produtos.
Como todos os outros grandes varejistas, a Target coletava dados sobre seus clientes por meio de códigos de compradores, cartões de crédito, pesquisas e muito mais. Ele misturou esses dados com dados demográficos e dados de terceiros que comprou. A análise de todos esses dados permitiu que a equipe de analytics da Target determinasse que havia cerca de 25 produtos vendidos pela Target que poderiam ser analisados em conjunto para gerar uma pontuação de “previsão de gravidez”. O departamento de marketing poderia, então, atingir os clientes de alta pontuação com cupons e mensagens de marketing.
Pesquisas adicionais revelariam que estudar o status reprodutivo dos clientes pode parecer repugnante para alguns deles. De acordo com o Times, a empresa não recuou de seu marketing direcionado, mas começou a misturar anúncios de coisas que sabiam que mulheres grávidas não comprariam – incluindo anúncios de cortadores de grama ao lado de anúncios de fraldas – para fazer com que o mix de anúncios pareça aleatório para o cliente.