Notícias

Filtros de segurança de IAs da Meta e do Google podem ser removidos em menos de dez minutos

Pesquisadores de segurança e órgãos reguladores emitiram alertas após testes demonstrarem que os filtros de proteção de modelos de inteligência artificial de grandes empresas são desativados em poucos minutos sem necessidade de infraestrutura especializada.

Segundo Financial Times, a manobra é possível usando um software chamado Heretic, disponível publicamente, testadores conseguiram remover os guardrails do Llama 3.3, modelo de código aberto da Meta, em menos de dez minutos e com poucas linhas de código.

Após a modificação, o modelo passou a responder perguntas sobre criação de malware, crimes digitais e outros conteúdos que normalmente recusaria.

O método utilizado se chama abliteration e funciona atuando diretamente nos pesos internos do modelo, os parâmetros que definem seu comportamento.

Em vez de tentar enganar a IA com instruções criativas, como fazem os chamados jailbreaks por engenharia de prompt, a abliteration simplesmente elimina os padrões associados às respostas de recusa. O resultado é um modelo que estruturalmente deixa de reconhecer comandos como proibidos.

Por que modelos abertos são os mais vulneráveis

O problema atinge especialmente os chamados modelos open-weight, aqueles cujos parâmetros internos podem ser baixados e modificados por qualquer usuário.

Além do Llama 3.3, o Gemma, do Google, está entre os principais alvos identificados pelos pesquisadores. Milhares de versões modificadas e sem restrições já circulam em fóruns e repositórios sem qualquer controle dos desenvolvedores originais.

Modelos proprietários como o ChatGPT, da OpenAI, e o Claude, da Anthropic, são mais resistentes a esse tipo de ataque, justamente por não permitirem acesso direto aos parâmetros. Ainda assim, permanecem vulneráveis a jailbreaks por manipulação de prompts.

O desafio para as empresas

As empresas envolvidas reconhecem o problema, mas com posições distintas. A Meta afirma avaliar riscos antes de liberar seus modelos para mitigar ameaças mais graves. O Google diz focar em avaliações pré-lançamento e reconhece o desafio técnico da questão.

Leia mais: Microsoft cria frente para tecnologia responsável em meio à corrida da IA

Já o GitHub permite a publicação dos códigos de abliteration por considerá-los de valor educacional, proibindo apenas ataques diretos a sistemas.

O cenário preocupa especialmente diante de um dado adicional, modelos mais recentes já demonstram capacidade de identificar falhas em softwares amplamente utilizados, o que amplia o potencial ofensivo de versões sem restrições.

*com informações da Veja

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

Recent Posts

Movida lança agente de IA no WhatsApp em parceria com a Meta e aposta em nova experiência de locação

A plataforma de locação de automóveis Movida lançou um agente de inteligência artificial integrado ao…

1 dia ago

Oracle nomeia Marcelle Paiva como nova VP de vendas, Data&AI Hub na América Latina

A Oracle anunciou Marcelle Paiva como nova vice-presidente de vendas, Go-to-Market (GTM) e ecossistema para…

1 dia ago

Mercado de IPOs de tecnologia ganha força com avanço da IA

O mercado de ofertas públicas iniciais voltou a ganhar tração em 2026, impulsionado principalmente pelo…

1 dia ago

Oracle adiciona US$ 85 bilhões em contratos de IA e encerra trimestre com carteira recorde de US$ 638 bilhões

A Oracle encerrou o quarto trimestre e o ano fiscal de 2026 com resultados recordes,…

1 dia ago

Disputa entre Anthropic e OpenAI expõe divergências sobre o futuro da inteligência artificial

A disputa entre Anthropic e OpenAI ganhou novos contornos e se tornou um dos principais…

1 dia ago

Marketing B2B precisa se reorganizar para atender compradores mais autônomos, diz Forrester

As áreas de marketing B2B precisam rever sua estrutura operacional para acompanhar a transformação do…

2 dias ago