Como melhorar a imparcialidade da Inteligência Artificial?
Vieses algorítmicos levam a resultados injustos ou arbitrários. Mas temos muitas estratégias e técnicas para combatê-los
O viés algorítmico é uma das áreas de escrutínio mais prolíficas da indústria de IA. Erros sistêmicos não intencionais podem levar a resultados injustos ou arbitrários, aumentando a necessidade de tecnologia padronizada e responsável – especialmente porque o mercado de IA deve atingir US$ 110 bilhões até 2024.
Existem várias maneiras em que a IA pode se tornar tendenciosa e criar resultados prejudiciais.
Em primeiro lugar, estão os próprios processos de negócios que a IA está sendo projetada para aumentar ou substituir. Se esses processos, o contexto e a quem ele é aplicado forem tendenciosos contra certos grupos, independentemente da intenção, a aplicação de IA resultante também será tendenciosa.
Em segundo lugar, as suposições básicas que os criadores de IA têm sobre os objetivos do sistema, quem o usará, os valores dos afetados ou como será aplicado podem inserir um viés prejudicial. Em seguida, o conjunto de dados usado para treinar e avaliar um sistema de IA pode resultar em danos se os dados não forem representativos de todos que irão impactar, ou se representarem preconceitos históricos e sistêmicos contra grupos específicos.
Finalmente, o próprio modelo pode ser tendencioso se variáveis sensíveis (por exemplo, idade, raça, gênero) ou seus proxies (por exemplo, nome, CEP) forem fatores nas previsões ou recomendações do modelo. Os desenvolvedores devem identificar onde existe preconceito em cada uma dessas áreas e, em seguida, auditar objetivamente os sistemas e processos que levam a modelos injustos (o que é mais fácil dizer do que fazer, pois há pelo menos 21 definições diferentes de justiça).
Para criar IA de maneira responsável, construir a ética desde o projeto em todo o ciclo de vida de desenvolvimento da IA é fundamental para a mitigação. Vamos dar uma olhada em cada etapa.
Alcance
Em qualquer projeto de tecnologia, comece perguntando: “Isso deveria existir?” e não apenas “Podemos construir?”
Não queremos cair na armadilha do tecnossolucionismo – a crença de que a tecnologia é a solução para todos os problemas ou desafios. No caso da IA, em particular, deve-se perguntar se a IA é a solução certa para atingir o objetivo pretendido. Que suposições estão sendo feitas sobre o objetivo da IA, sobre as pessoas que serão afetadas e sobre o contexto de seu uso? Existem riscos conhecidos ou preconceitos sociais ou históricos que poderiam impactar os dados de treinamento necessários para o sistema? Todos nós temos preconceitos implícitos. Sexismo, racismo, preconceito de idade, preconceito com pessoas com deficiência e outros preconceitos históricos serão amplificados na IA, a menos que tomemos medidas explícitas para resolvê-los.
Mas não podemos resolver o preconceito até que o procuremos. Essa é a próxima etapa.
Análise
É necessária uma pesquisa profunda do usuário para interrogar completamente nossas suposições. Quem está incluído e representado nos conjuntos de dados e quem é excluído? Quem será afetado pela IA e como? Esta etapa é onde as metodologias como workshops de varredura de consequências e modelagem de danos entram em ação. O objetivo é identificar as maneiras pelas quais um sistema de IA pode causar danos não intencionais por agentes mal-intencionados ou por pessoas bem-intencionadas e ingênuas.
Quais são as formas alternativas e válidas que uma IA poderia ser usada que causa danos não propositais? Como se pode mitigar esses danos, especialmente aqueles que podem recair sobre as populações mais vulneráveis (por exemplo, crianças, idosos, deficientes, pobres, populações marginalizadas)? Se não for possível identificar maneiras de mitigar os danos mais prováveis e graves, pare. Este é um sinal de que o sistema de IA em desenvolvimento não deveria existir.
Teste
Existem muitas ferramentas de código aberto disponíveis hoje para identificar preconceitos e justiça em conjuntos de dados e modelos (por exemplo, ferramentas de variações hipotéticas do Google, ML Fairness Gym, IBM AI 360 Fairness, Aequitas, FairLearn). Também há ferramentas disponíveis para visualizar e interagir com os dados para entender melhor como eles são representativos ou balanceados (por exemplo, Google’s Facets, IBM AI 360 Explainability). Algumas dessas ferramentas também incluem a capacidade de mitigar preconceitos, mas a maioria não, portanto, esteja preparado para adquirir ferramentas para esse fim.
A formação de equipes vermelhas vem da disciplina de segurança, mas quando aplicada em um contexto de uso ético, os testadores tentam usar o sistema de IA de uma forma que cause danos. Isso expõe riscos éticos (e potencialmente legais) que você deve então descobrir como lidar. Os júris da comunidade são outra forma de identificar danos potenciais ou consequências não intencionais de um sistema de IA. O objetivo é reunir representantes de uma população diversificada, especialmente comunidades marginalizadas, para entender melhor suas perspectivas sobre como qualquer sistema poderá impactá-los.
Mitigação
Existem diferentes maneiras de mitigar os danos. Os desenvolvedores podem optar por remover a funcionalidade mais arriscada ou incorporar avisos e mensagens no aplicativo para fornecer fricção consciente, orientando as pessoas sobre o uso responsável da IA. Alternativamente, pode-se escolher monitorar e controlar rigidamente como um sistema está sendo usado, desativando-o quando um dano é detectado. Em alguns casos, esse tipo de supervisão e controle não é possível (por exemplo, modelos específicos do locatário em que os clientes criam e treinam seus próprios modelos em seus próprios conjuntos de dados).
Também existem maneiras de abordar e mitigar diretamente o preconceito em conjuntos de dados e modelos. Vamos explorar o processo de mitigação de enviesamento por meio de três categorias exclusivas que podem ser introduzidas em vários estágios de um modelo:
- pré-processamento (enviesamento de atenuação em dados de treinamento);
- em processamento (enviesamento de atenuação em classificadores);
- pós-processamento (enviesamento de atenuação nas previsões).
Tiro o chapéu para a IBM por seu trabalho inicial na definição dessas categorias.
Mitigação de preconceito de pré-processamento
A mitigação de pré-processamento se concentra nos dados de treinamento, que sustentam a primeira fase do desenvolvimento de IA e é frequentemente onde o viés subjacente provavelmente será introduzido. Ao analisar o desempenho do modelo, pode haver um impacto diferente acontecendo (ou seja, um gênero específico sendo mais ou menos provável de ser contratado ou obter um empréstimo). Pense nisso em termos de preconceito prejudicial (ou seja, uma mulher é capaz de pagar um empréstimo, mas ela foi negada com base, principalmente, em seu gênero) ou em termos de justiça (ou seja, quero ter certeza de que estou contratando com equilíbrio de gêneros).
Os humanos estão fortemente envolvidos no estágio de dados de treinamento, mas os humanos carregam preconceitos inerentes. A probabilidade de resultados negativos aumenta com a falta de diversidade nas equipes responsáveis pela construção e implementação da tecnologia. Por exemplo, se um determinado grupo é inadvertidamente deixado de fora de um conjunto de dados, então automaticamente o sistema está colocando um conjunto de dados ou grupo de indivíduos em desvantagem significativa devido à maneira como os dados são usados para treinar modelos.
Mitigação de polarização em processamento
As técnicas de processamento nos permitem reduzir o viés nos classificadores enquanto trabalhamos no modelo. No machine learning, um classificador é um algoritmo que ordena ou categoriza automaticamente os dados em um ou mais conjuntos. O objetivo aqui é ir além da precisão e garantir que os sistemas sejam justos e precisos.
A degradação adversária é uma técnica que pode ser usada neste estágio para maximizar a precisão e, ao mesmo tempo, reduzir a evidência de atributos protegidos nas previsões. Essencialmente, o objetivo é “quebrar o sistema” e fazer com que ele faça algo que ele pode não querer fazer.
Por exemplo, quando uma instituição financeira está tentando medir a “capacidade de reembolso” de um cliente antes de aprovar um empréstimo, seu sistema de IA pode prever a capacidade de alguém com base em variáveis confidenciais ou protegidas como raça e sexo ou variáveis proxy (como CEP, que pode correlacionar com raça). Esses preconceitos no processo levam a resultados imprecisos e injustos.
Ao incorporar uma ligeira modificação durante o treinamento, as técnicas de processamento permitem a mitigação do viés ao mesmo tempo em que garantem que o modelo está produzindo resultados precisos.
Mitigação de polarização de pós-processamento
A mitigação pós-processamento torna-se útil depois que os desenvolvedores treinam um modelo, mas agora desejam equalizar os resultados. Nesse estágio, o pós-processamento visa mitigar o viés nas previsões – ajustando apenas os resultados de um modelo em vez do classificador ou dos dados de treinamento.
No entanto, ao aumentar as saídas, pode-se estar alterando a precisão. Por exemplo, esse processo pode resultar na contratação de menos homens qualificados se o resultado preferido for a representação igual de gênero, em vez de conjuntos de habilidades relevantes (às vezes referidos como preconceito positivo ou ação afirmativa). Isso afetará a precisão do modelo, mas atingirá o objetivo desejado.
Lançar e monitorar
Uma vez que qualquer modelo é treinado e os desenvolvedores estão satisfeitos de que ele atende aos limites predefinidos de parcialidade ou justiça, deve-se documentar como foi treinado, como o modelo funciona, casos de uso pretendidos e não intencionais, avaliações de polarização conduzidas pela equipe e qualquer riscos sociais ou éticos. Esse nível de transparência não apenas ajuda os clientes a confiar em uma IA; pode ser necessário se operar em um setor regulamentado. Felizmente, existem algumas ferramentas de código aberto para ajudar (por exemplo, Model Card Toolkit do Google, AI FactSheets 360 da IBM, Open Ethics Label).
O lançamento de um sistema de IA nunca é definido e esquecido; requer monitoramento contínuo para desvio do modelo. A deriva pode afetar não apenas a precisão e o desempenho de um modelo, mas também sua imparcialidade. Teste um modelo regularmente e esteja preparado para treinar novamente se a deriva se tornar muito grande.
Acertando na IA
Fazer a IA “certa” é difícil, mas mais importante do que nunca. A Federal Trade Commission sinalizou recentemente que pode aplicar leis que proíbam a venda ou o uso de IA tendenciosa, e a União Europeia está trabalhando em uma estrutura legal para regulamentar a IA. A IA responsável não é boa apenas para a sociedade, ela cria melhores resultados de negócios e reduz os riscos legais e de marca.
A IA se tornará mais prolífica globalmente à medida que novos aplicativos forem criados para resolver os principais desafios econômicos, sociais e políticos. Embora não haja uma abordagem “tamanho único” para criar e implantar IA responsável, as estratégias e técnicas discutidas neste artigo ajudarão em vários estágios do ciclo de vida de um algoritmo – atenuando o viés para nos aproximar da tecnologia ética em escala .
No final do dia, é responsabilidade de todos garantir que a tecnologia seja criada com a melhor das intenções e que os sistemas estejam em vigor para identificar danos não intencionais.
*Kathy Baxter é a Arquiteta Principal da Prática Ética de IA na Salesforce.