Microsoft recua na análise de reconhecimento facial, mas grandes questões permanecem

Embora seja bom que a Microsoft esteja reconhecendo problemas de discriminação e precisão, ela teve anos para corrigir os problemas e não o fez

Publicado: 08/07/2022 às 18:00

Leitura 8 minutos

reconhecimento facial — Foto: Imagem: Reprodução/Shutter Stock

A Microsoft está se afastando de seu suporte público para alguns recursos orientados por IA, incluindo reconhecimento facial, e reconhecendo os problemas de discriminação e precisão que essas ofertas criam. Mas a empresa teve anos para corrigir os problemas e não o fez. Isso é semelhante a um fabricante de automóveis fazendo recall de um veículo em vez de consertá-lo.

Apesar das preocupações de que a tecnologia de reconhecimento facial possa ser discriminatória, o problema real é que os resultados são imprecisos. (O argumento discriminatório desempenha um papel, no entanto, devido às suposições que os desenvolvedores da Microsoft fizeram ao criar esses aplicativos.)

As melhores notícias de tecnologia B2B

Acompanhe todas as novidades diretamente na sua caixa de entrada

Vamos começar com o que a Microsoft fez e disse. Sarah Bird, gerente de produtos do Grupo para o Azure AI da Microsoft, resumiu a retração no mês passado em um post no blog da Microsoft.

“A partir de hoje (21 de junho), os novos clientes precisam solicitar acesso para usar as operações de reconhecimento facial no Azure Face API, Computer Vision e Video Indexer. Os clientes existentes têm um ano para se inscrever e receber aprovação para acesso contínuo aos serviços de reconhecimento facial com base nos casos de uso fornecidos. Ao introduzir o Acesso Limitado, adicionamos uma camada adicional de escrutínio ao uso e implantação do reconhecimento facial para garantir que o uso destes serviços esteja alinhado com o Padrão de IA Responsável da Microsoft e contribua para o usuário final de alto valor e para o benefício social. Isso inclui a introdução de casos de uso e requisitos de qualificação do cliente para obter acesso a esses serviços”.

“Os recursos de detecção facial – incluindo detecção de desfoque, exposição, óculos, head pose, pontos de referência, ruído, oclusão e facial bounding box – permanecerão geralmente disponíveis e não exigirão um aplicativo”.

Veja a segunda frase, onde Bird destaca esse arco adicional para os usuários pularem “para garantir que o uso destes serviços esteja alinhado com o padrão de IA responsável da Microsoft e contribua para o usuário final de alto valor e para o benefício social”.

Isso certamente soa bem, mas é realmente isso que essa mudança faz? Ou a Microsoft simplesmente se apoiará nele como uma maneira de impedir que as pessoas usem o aplicativo onde as imprecisões são maiores?

Uma das situações discutidas pela Microsoft envolve o reconhecimento de fala, onde descobriu que “a tecnologia de fala para texto em todo o setor de tecnologia produzia taxas de erro para membros de algumas comunidades negras e afro-americanas que eram quase o dobro daquelas para usuários brancos”, disse Natasha Crampton, diretora responsável pela IA da Microsoft. “Recuamos, consideramos as descobertas do estudo e descobrimos que nossos testes de pré-lançamento não levaram em conta satisfatoriamente a rica diversidade de fala entre pessoas com diferentes origens e de diferentes regiões”.

Outro problema que a Microsoft identificou é que pessoas de todas as origens tendem a falar de maneira diferente em ambientes formais e informais. Sério? Os desenvolvedores não sabiam disso antes? Aposto que sim, mas não conseguiram pensar nas implicações de não fazer nada.

Uma maneira de resolver isso é reexaminar o processo de coleta de dados. Por sua própria natureza, as pessoas que estão sendo gravadas para análise de voz ficarão um pouco nervosas e provavelmente falarão de maneira rigorosa e rígida. Uma maneira de lidar com isso é realizar sessões de gravação muito mais longas em um ambiente o mais relaxado possível. Depois de algumas horas, algumas pessoas podem esquecer que estão sendo gravadas e se estabelecer em padrões de fala casuais.

Eu vi isso acontecer com a forma como as pessoas interagem com o reconhecimento de voz. No início, eles falam devagar e tendem a enunciar em excesso. Com o tempo, eles caem lentamente no que chamo de modo “Star Trek” e falam como falariam com outra pessoa.

Um problema semelhante foi descoberto com os esforços de detecção de emoções.

Mais de Bird: “Em outra mudança, aposentaremos os recursos de análise facial que pretendem inferir estados emocionais e atributos de identidade, como sexo, idade, sorriso, barba, cabelo e maquiagem. Colaboramos com pesquisadores internos e externos para entender as limitações e os benefícios potenciais dessa tecnologia e navegar pelas compensações. No caso da classificação de emoções especificamente, esses esforços levantaram questões importantes sobre privacidade, a falta de consenso sobre uma definição de emoções e a incapacidade de generalizar a ligação entre expressão facial e estado emocional em casos de uso, regiões e dados demográficos. O acesso da API a recursos que preveem atributos confidenciais também abre uma ampla gama de maneiras de uso indevido, incluindo submeter pessoas a estereótipos, discriminação ou negação injusta de serviços. Para mitigar esses riscos, optamos por não oferecer suporte a um sistema de uso geral na Face API que pretende inferir estados emocionais, sexo, idade, sorriso, barba, cabelo e maquiagem. A detecção desses atributos não estará mais disponível para novos clientes a partir de 21 de junho de 2022, e os clientes existentes têm até 30 de junho de 2023 para descontinuar o uso desses atributos antes de serem desativados”.

Na detecção de emoções, historicamente a análise facial provou ser muito menos precisa do que a simples análise de voz. O reconhecimento de emoção por voz provou ser bastante eficaz em aplicações de call center, onde um cliente que parece muito irritado pode ser imediatamente transferido para um supervisor sênior.

Até certo ponto, isso ajuda o argumento da Microsoft que é a maneira como os dados são usados que precisa ser restringido. Nesse cenário de call center, se o software estiver errado e o cliente não estiver de fato irritado, nenhum dano será causado. O supervisor simplesmente completa a chamada normalmente. Nota: a única detecção de emoção comum com a voz que eu já vi é quando o cliente está com raiva do phonetree e sua incapacidade de realmente entender frases simples. O software pensa que o cliente está zangado com a empresa. Um erro razoável.

Mas, novamente, se o software estiver errado, nenhum dano será causado.

Bird destacou que alguns casos de uso ainda podem contar com essas funções de IA com responsabilidade. “Os clientes do Azure Cognitive Services agora podem aproveitar o pacote Fairlearn de código aberto e o Fairness Dashboard da Microsoft para medir a imparcialidade dos algoritmos de verificação facial da Microsoft em seus próprios dados, permitindo que eles identifiquem e resolvam possíveis problemas de justiça que possam afetar diferentes grupos demográficos antes de implantar sua tecnologia”.

Bird também disse que problemas técnicos desempenharam um papel em algumas das imprecisões. “Ao trabalhar com clientes que usam nosso serviço Face, também percebemos que alguns erros originalmente atribuídos a problemas de imparcialidade foram causados por baixa qualidade de imagem. Se a imagem enviada por alguém estiver muito escura ou desfocada, o modelo pode não conseguir combiná-la corretamente. Reconhecemos que essa baixa qualidade de imagem pode ser injustamente concentrada entre grupos demográficos”.

Entre grupos demográficos? Não é todo mundo, já que todo mundo pertence a algum grupo demográfico? Isso soa como uma maneira tímida de dizer que os não-brancos podem ter uma funcionalidade de correspondência ruim. É por isso que o uso dessas ferramentas pela aplicação da lei é tão problemático. Uma pergunta-chave para a TI: Quais são as consequências se o software estiver errado? O software é uma das 50 ferramentas que estão sendo usadas, ou está sendo confiado apenas nele?

A Microsoft disse que está trabalhando para corrigir esse problema com uma nova ferramenta. “É por isso que a Microsoft está oferecendo aos clientes uma nova API de qualidade de reconhecimento que sinaliza problemas com iluminação, desfoque, oclusões ou ângulo de cabeça em imagens enviadas para verificação facial”, disse Bird. “A Microsoft também oferece um aplicativo de referência que fornece sugestões em tempo real para ajudar os usuários a capturar imagens de alta qualidade com maior probabilidade de produzir resultados precisos”.

Em uma entrevista ao New York Times, Crampton apontou que outro problema era que “o chamado classificador de gênero do sistema era binário ‘e isso não é consistente com nossos valores'”.

Em suma, ela está dizendo que, embora o sistema não pense apenas em termos de homem e mulher, ele não poderia rotular facilmente as pessoas que se identificam de outras maneiras de gênero. Nesse caso, a Microsoft simplesmente optou por parar de tentar adivinhar o gênero, o que provavelmente é a decisão certa.