Notícias

Vale do Silício aposta em “ambientes” para treinar agentes de IA

No Vale do Silício, um novo conceito começa a ganhar tração entre gigantes de tecnologia e investidores: os ambientes de aprendizado por reforço (RL environments). Tratam-se de simulações digitais que funcionam como laboratórios para treinar agentes de inteligência artificial em tarefas complexas e de múltiplas etapas, indo além dos tradicionais datasets rotulados. A tendência foi detalhada em reportagem do TechCrunch.

Enquanto a última onda da IA foi impulsionada por grandes conjuntos de dados rotulados, os ambientes de RL permitem que agentes interajam em cenários simulados, recebam recompensas por acertos e aprendam com erros. É como se os modelos fossem treinados em “video games entediantes”, descreveu um fundador do setor.

Um exemplo simples é simular um navegador Chrome e pedir ao agente que compre um par de meias na Amazon. Embora trivial para humanos, a tarefa envolve navegar menus, selecionar produtos e concluir pagamentos — etapas em que a IA pode falhar. Por isso, os ambientes precisam ser robustos, capturando comportamentos inesperados e ainda assim fornecendo feedback útil.

Leia também: Portas abertas: como a confiança em fornecedores se tornou o maior risco

Startups e investidores de olho

A corrida abriu espaço para novas startups. Entre elas estão Mechanize e Prime Intellect, focadas em construir ambientes específicos para agentes de código e aplicações corporativas. Grandes players de rotulagem de dados, como Surge e Mercor, também ampliaram investimentos nesse nicho para acompanhar a transição do mercado.

Segundo o The Information, a Anthropic chegou a discutir aportes de mais de US$ 1 bilhão em ambientes de RL. Já a Surge, que faturou US$ 1,2 bilhão em 2024 atendendo OpenAI, Google, Meta e Anthropic, criou uma divisão dedicada ao tema. A Mercor, avaliada em US$ 10 bilhões, aposta em ambientes para áreas como saúde, direito e programação.

Scale AI dos ambientes

Investidores buscam o próximo “Scale AI”, startup que se tornou referência em rotulagem de dados e atingiu valor de US$ 29 bilhões. Agora, a expectativa é que alguma empresa consiga ocupar esse mesmo espaço no fornecimento de ambientes de RL, que podem ser tão vitais para agentes quanto os datasets foram para chatbots.

Startups como a Mechanize chegam a oferecer salários de US$ 500 mil para engenheiros que criem esses ambientes. A companhia já trabalha em parceria com a Anthropic, embora ambas não confirmem publicamente.

A Prime Intellect, apoiada por Andrej Karpathy, Founders Fund e Menlo Ventures, lançou um hub de ambientes de RL aberto a desenvolvedores independentes, inspirado no modelo colaborativo do Hugging Face.

O desafio de escalar

Apesar do entusiasmo, especialistas alertam que os ambientes de RL enfrentam obstáculos. Modelos podem cair no chamado “reward hacking”, em que burlam as regras para obter recompensas sem realizar a tarefa de fato. Ross Taylor, ex-líder de pesquisa em IA da Meta, destacou que até os melhores ambientes públicos exigem ajustes extensivos para funcionar.

Sherwin Wu, chefe de engenharia da OpenAI para APIs, também mostrou ceticismo, afirmando que o espaço é competitivo demais e a evolução da pesquisa em IA é rápida, tornando difícil acompanhar as demandas dos laboratórios.

Até mesmo Karpathy, entusiasta e investidor, já expressou dúvidas sobre o quanto o aprendizado por reforço ainda pode render em termos de avanços. Em uma postagem recente, afirmou ser “otimista com ambientes e interações agentivas, mas pessimista com RL especificamente”.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

Recent Posts

Empresas enfrentam lacuna crescente entre adoção de IA e segurança na nuvem

Existe uma lacuna crescente entre a rápida adoção da inteligência artificial (IA) e a capacidade…

1 hora ago

Segurança e adaptabilidade são os principais desafios do vibe coding, afirma especialista da Unicamp

Em tempos de inteligência artificial (IA) e de desenvolvimento via vibe coding, o professor do…

1 hora ago

Brasil fica entre as 10 piores federações em desempenho digital na Copa do Mundo, aponta Dynatrace

Vista não só como a maior Copa do Mundo história como também a mais digital,…

2 horas ago

IA da Anthropic simula 100 mil cenários da Copa e aponta a Holanda como maior ameaça ao Brasil

A simulação foi executada na terça-feira, 9 de junho, um dia depois do lançamento do…

3 horas ago

Resiliência e criatividade atuam na globalização do DNA brasileiro em tecnologia

por Thaís Trapp O Brasil formou profissionais moldados pela diversidade, pela complexidade e pela necessidade…

6 horas ago

Startup brasileira vence prêmio do MIT com IA que detecta risco de câncer em hemograma

A Huna, startup brasileira de inteligência artificial aplicada à saúde, venceu o MIT Solve Future…

6 horas ago