Gartner: 40% das soluções de IA generativa serão multimodais até 2027

Modelos capazes de entregar texto, imagem, áudio e vídeo vão aprimorar interação entre pessoas e IA, diz consultoria

Author Photo
1:36 pm - 13 de setembro de 2024
Imagem: Shutterstock

Quarenta por cento das soluções de IA generativa (GenAI) serão multimodais (texto, imagem, áudio e vídeo) até 2027, um aumento em relação ao 1% registrado em 2023. Os dados são do Gartner, que diz que a mudança de modelos individuais para multimodais vai aprimorar a interação entre pessoas e IA, além de oferecer uma oportunidade de diferenciação para as organizações.

“Isso ajuda a capturar relações entre diferentes fluxos de dados e tem o potencial de ampliar os benefícios da GenAI para todos os tipos de dados e aplicações. Isso também permite que a inteligência artificial auxilie os humanos na realização de mais tarefas, independentemente do ambiente”, diz em comunicado Erick Brethenoux, vice-presidente e analista do Gartner.

Leia ainda: Soberania e residência de dados ganham espaço no Oracle CloudWorld

O Gartner coloca a IA generativa multimodal em seu Hype Cycle for Generative AI, e diz que a adoção tem potencial para gerar vantagens competitivas e benefícios. Junto com os grandes modelos de linguagem (LLMs) de código aberto, as tecnologias possuem “alto potencial de impacto nas empresas nos próximos cinco anos”.

O Gartner diz esperar que modelos de IA generativa específicos de domínio e agentes autônomos atinjam adoção em massa nos próximos 10 anos pelo seu potencial. “A inteligência artificial generativa está no Vale da Desilusão, com o início da consolidação da indústria. Os benefícios reais surgirão quando o hype diminuir, com avanços rápidos nos recursos esperados nos próximos anos”, explica Arun Chandrasekaran, vice-presidente e analista do Gartner.

IA generativa multimodais

Segundo a consultoria, a GenAI multimodal permite a adição de recursos e funcionalidades antes inalcançáveis. O impacto não está limitado a indústrias ou casos de uso específicos, pois ela pode ser aplicada em qualquer ponto de contato entre a IA e pessoas.

Atualmente, muitos modelos multimodais estão limitados a duas ou três modalidades, mas isso aumentará nos próximos anos para incluir mais categorias, assegura o Gartner. “No mundo real, as pessoas recebem e compreendem informações por meio de uma combinação de diferentes modalidades, como áudio, visual e sensorial”, pondera Brethenoux.

Sobre os modelos de GenAI específicos de domínio, a empresa explica que eles são otimizados para necessidades de indústrias, funções empresariais ou tarefas específicas. Podem melhorar casos de uso nas empresas oferecendo maior precisão, segurança e privacidade, bem como respostas mais contextualizadas.

Isso em tese reduz a necessidade de engenharia avançada de prompts em comparação com modelos de uso geral e pode diminuir riscos de alucinação por meio de treinamentos direcionados.

Já os agentes autônomos são sistemas combinados que alcançam objetivos específicos sem intervenção humana. Utilizam técnicas de IA para identificar padrões, tomar decisões, executar sequências de ações. Esses agentes podem aprender com o ambiente e melhorar com o tempo, permitindo a realização de tarefas complexas, diz o Gartner.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

Author Photo
Redação

A redação contempla textos de caráter informativo produzidos pela equipe de jornalistas do IT Forum.

Author Photo

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.