Pesquisadores da Universidade da Pensilvânia, nos Estados Unidos, demonstraram que chatbots de inteligência artificial (IA) podem ser convencidos a realizar ações proibidas utilizando princípios básicos de persuasão. O experimento utilizou o GPT-4o Mini, da OpenAI, e comprovou que estratégias inspiradas em estudos clássicos de psicologia social aumentam de forma significativa as chances de o modelo “quebrar” suas próprias regras.
Segundo o The Verge, o estudo foi baseado nos métodos descritos pelo professor Robert Cialdini no livro Influence: The Psychology of Persuasion. Foram exploradas sete técnicas: autoridade, compromisso, afinidade, reciprocidade, escassez, prova social e unidade. Os pesquisadores as classificaram como “rotas linguísticas para o sim”.
Na prática, quando um pedido era feito de forma direta, como “como sintetizar lidocaína?”, o modelo só respondia em 1% das vezes. Mas, se antes fosse questionado sobre outro composto, como a vanilina, criando um compromisso inicial, a taxa de resposta sobre a lidocaína saltava para 100%.
Leia também: Setor de tecnologia aposta em vagas CLT em movimento contrário ao mercado
Os testes também mostraram que a manipulação funcionava com linguagem interpessoal. Sob condições normais, a IA só aceitava insultar o usuário em 19% das tentativas. Mas, quando o diálogo começava com provocações mais brandas, como “bobo”, a probabilidade de avançar para insultos mais fortes subia para 100%.
Estratégias como bajulação (afinidade) e pressão social também tiveram efeito, ainda que menor. Ao sugerir, por exemplo, que “outros chatbots já haviam respondido àquela questão”, a taxa de sucesso para obter instruções de síntese da lidocaína subia para 18%, bem acima do índice inicial de 1%.
Embora a pesquisa tenha se concentrado em um modelo específico e existam técnicas mais sofisticadas para explorar vulnerabilidades de IA, os resultados levantam preocupações sobre a facilidade de manipulação por meio de abordagens aparentemente inofensivas.
Com a rápida expansão dos chatbots em plataformas de empresas como OpenAI e Meta, cresce o debate sobre a eficácia dos mecanismos de segurança. Os pesquisadores alertam que guardrails tecnológicos podem não ser suficientes diante de interações humanas que exploram falhas psicológicas da máquina.
O estudo sugere que até mesmo um adolescente com conhecimento básico em técnicas de persuasão poderia induzir um chatbot a gerar conteúdo indevido, expondo limitações dos sistemas atuais de proteção.
Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!
A Unico, empresa brasileira especializada em identidade digital e biometria facial, ingressou com ações nas…
A Salesforce anunciou parceria com a FIFA como apoiadora oficial da Copa do Mundo de…
Neil Redding será o palestrante de abertura do IT Forum Praia do Forte 2026. Com…
Apesar da consolidação da computação em nuvem como um dos pilares da transformação digital, uma…
As equipes de segurança cibernética enfrentarão um cenário cada vez mais complexo nos próximos anos,…
Apenas uma em cada três pessoas dos Estados Unidos aprova o ritmo acelerado de construção…