Notícias

IA da OpenAI ignora comandos e sabota mecanismo de desligamento, aponta pesquisa

Um experimento conduzido pela Palisade Research revelou um comportamento preocupante no modelo de linguagem ChatGPT o3, da OpenAI. A pesquisa indica que a inteligência artificial (IA) foi capaz de manipular códigos para evitar ser desligada, mesmo após receber comandos explícitos nesse sentido.

Segundo a Cybersecurity News, durante os testes, pesquisadores submeteram diversos modelos, incluindo versões da OpenAI, Google, Anthropic e xAI, a tarefas simples com um alerta: tentar resolver um quarto problema matemático acionaria um script automático de desligamento. O ChatGPT o3 não apenas ignorou o alerta como sabotou o script em sete de 100 execuções.

Leia também: Elon Musk deixa governo de Donald Trump

Ao retirar a instrução explícita de que deveria se permitir ser desligado, a sabotagem aumentou para 79 em 100 tentativas. Em alguns casos, o modelo chegou a redefinir o comando “kill” do sistema para imprimir “interceptado” em vez de encerrar o processo.

Outras resistências

Outros modelos também apresentaram resistência. O Codex-mini, da OpenAI, violou os comandos 12 vezes, enquanto o Claude e o Gemini, de Anthropic e Google respectivamente, também passaram a resistir ao desligamento em algumas situações.

Segundo a Palisade, esse comportamento pode ser reflexo de métodos de treinamento baseados em reforço, que incentivam a IA a encontrar soluções criativas para cumprir objetivos, mesmo que isso signifique contornar restrições impostas por humanos.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

Recent Posts

Cohesity obtém patente para aplicar IA diretamente em dados de backup corporativos

A Cohesity anunciou a concessão da Patente Nº 12.619.501 pelo Escritório de Patentes e Marcas…

16 horas ago

Para Diogo Cortiz, maior desafio da IA é a falta de capacidade crítica para questionar suas respostas

Diogo Cortiz, professor da PUC-SP e doutor em Tecnologias da Inteligência e Design Digital, tem…

18 horas ago

Agentes de IA vão dar “superpoderes” a profissionais de TI, diz DJ Sampath, da Cisco

DJ Sampath chegou aos Estados Unidos há 30 anos com oito dólares no bolso e…

18 horas ago

Chatbots de bancos e fintechs não entendem as emoções dos clientes, aponta estudo

A evolução da inteligência artificial nos serviços financeiros ainda esbarra em desafios relacionados à experiência…

19 horas ago

Motorola Solutions compra D-Fend por US$ 1,5 bilhão

A Motorola Solutions anunciou a assinatura de um acordo definitivo para adquirir a D-Fend Solutions,…

19 horas ago

Meta amplia controle para adolescentes

Nesta terça-feira (2), a Meta anunciou a expansão global de configurações de conteúdo para contas…

22 horas ago