Notícias

Modelos TTT: a nova fase da IA generativa

Pesquisadores de Stanford, UC San Diego, UC Berkeley e Meta estão explorando uma nova arquitetura de inteligência artificial que promete superar as limitações enfrentadas pelos tradicionais transformers.

Conhecidos como modelos TTT (test-time training), esses novos modelos foram desenvolvidos com o objetivo de processar grandes volumes de dados de maneira mais eficiente e econômica.

Os transformers desempenham um papel crucial na OpenAI, por exemplo, sendo a base de modelos avançados como o Sora, um gerador de vídeo de ponta desenvolvido pela empresa. No entanto, embora eficazes em tarefas de processamento de linguagem natural e geração de texto, eles enfrentam desafios significativos relacionados ao consumo de energia e demandas computacionais.

Leia também: 335 vagas para avançar na carreira em TI 

Além disso, os transformers são poderosos devido ao seu estado oculto, que armazena informações processadas. No entanto, esse estado também impõe limitações significativas, exigindo que o modelo reviste toda a informação para responder a qualquer pergunta, sobre um livro, por exemplo. Para resolver isso, os pesquisadores desenvolveram o modelo TTT, que substitui o estado oculto por um modelo de machine learning mais eficiente.

“Se você pensar em um transformer como uma entidade inteligente, então a tabela de consulta — seu estado oculto — é o cérebro do transformer”, disse Yu Sun, pós-doutorando em Stanford e colaborador na pesquisa, ao TechCrunch. “Esse cérebro especializado permite as bem conhecidas capacidades dos transformers, como o aprendizado em contexto”.

Porém, ao contrário dos transformers, o modelo TTT não aumenta de tamanho à medida que processa mais dados, codificando as informações em pesos representativos. Isso possibilita que os modelos TTT processem grandes volumes de dados, como palavras, imagens, áudio e vídeos, de maneira eficiente, indo além das capacidades dos modelos atuais.

“Nosso sistema pode dizer X palavras sobre um livro sem a complexidade computacional de reler o livro X vezes”, disse Sun ao TechCrunch. “Grandes modelos de vídeo baseados em transformers, como Sora, só podem processar 10 segundos de vídeo, porque eles só têm um ‘cérebro’ de tabela de consulta. Nosso objetivo final é desenvolver um sistema que possa processar um vídeo longo, semelhante à experiência visual de uma vida humana”.

Empresas como Mistral e AI21 Labs já estão explorando alternativas similares, como os modelos de espaço de estado (SSMs), em busca de eficiência comparável ou superior aos transformers, segundo o TechCrunch.

Embora o potencial dos modelos TTT seja promissor, Mike Cook, professor sênior do King’s College London, especialista ouvido pela reportagem, alerta que são necessárias mais pesquisas para validar a eficiência do modelo em relação às arquiteturas existentes. “Um professor antigo meu costumava contar uma piada quando eu era um graduando: Como você resolve qualquer problema em ciência da computação? Adicione mais uma camada de abstração. Adicionar uma rede neural dentro de uma rede neural definitivamente me lembra disso”, comentou ele à reportagem do TechCrunch.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias! 

Recent Posts

SpaceX, Anthropic e OpenAI enfrentam riscos em possíveis IPOs

SpaceX, Anthropic e OpenAI estão no radar de Wall Street para possíveis aberturas de capital…

14 horas ago

Sistemas legados: como tomar decisões para garantir resiliência em setores críticos

por Eduardo Honorato Falar sobre infraestruturas críticas na Era Digital tem sua própria complexidade dentro…

18 horas ago

Sem equipes preparadas, IA não entrega transformação

A adoção de inteligência artificial (IA) nas empresas não depende apenas da disponibilidade de ferramentas.…

20 horas ago

Cohesity obtém patente para aplicar IA diretamente em dados de backup corporativos

A Cohesity anunciou a concessão da Patente Nº 12.619.501 pelo Escritório de Patentes e Marcas…

2 dias ago

Para Diogo Cortiz, maior desafio da IA é a falta de capacidade crítica para questionar suas respostas

Diogo Cortiz, professor da PUC-SP e doutor em Tecnologias da Inteligência e Design Digital, tem…

2 dias ago

Agentes de IA vão dar “superpoderes” a profissionais de TI, diz DJ Sampath, da Cisco

DJ Sampath chegou aos Estados Unidos há 30 anos com oito dólares no bolso e…

2 dias ago