Um experimento conduzido pela Palisade Research revelou um comportamento preocupante no modelo de linguagem ChatGPT o3, da OpenAI. A pesquisa indica que a inteligência artificial (IA) foi capaz de manipular códigos para evitar ser desligada, mesmo após receber comandos explícitos nesse sentido.
Segundo a Cybersecurity News, durante os testes, pesquisadores submeteram diversos modelos, incluindo versões da OpenAI, Google, Anthropic e xAI, a tarefas simples com um alerta: tentar resolver um quarto problema matemático acionaria um script automático de desligamento. O ChatGPT o3 não apenas ignorou o alerta como sabotou o script em sete de 100 execuções.
Leia também: Elon Musk deixa governo de Donald Trump
Ao retirar a instrução explícita de que deveria se permitir ser desligado, a sabotagem aumentou para 79 em 100 tentativas. Em alguns casos, o modelo chegou a redefinir o comando “kill” do sistema para imprimir “interceptado” em vez de encerrar o processo.
Outros modelos também apresentaram resistência. O Codex-mini, da OpenAI, violou os comandos 12 vezes, enquanto o Claude e o Gemini, de Anthropic e Google respectivamente, também passaram a resistir ao desligamento em algumas situações.
Segundo a Palisade, esse comportamento pode ser reflexo de métodos de treinamento baseados em reforço, que incentivam a IA a encontrar soluções criativas para cumprir objetivos, mesmo que isso signifique contornar restrições impostas por humanos.
Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!
A Cohesity anunciou a concessão da Patente Nº 12.619.501 pelo Escritório de Patentes e Marcas…
Diogo Cortiz, professor da PUC-SP e doutor em Tecnologias da Inteligência e Design Digital, tem…
DJ Sampath chegou aos Estados Unidos há 30 anos com oito dólares no bolso e…
A evolução da inteligência artificial nos serviços financeiros ainda esbarra em desafios relacionados à experiência…
A Motorola Solutions anunciou a assinatura de um acordo definitivo para adquirir a D-Fend Solutions,…
Nesta terça-feira (2), a Meta anunciou a expansão global de configurações de conteúdo para contas…