Notícias

Phi-3 Mini: Microsoft introduz o menor modelo de IA até o momento

A Microsoft lançou, na última terça-feira (23), o Phi-3 Mini, com 3,8 bilhões de parâmetros e treinado em um conjunto de dados menor do que modelos de linguagem maiores, como o GPT-4. Este é o primeiro de uma série de pequenos modelos de linguagem (SLM) que a empresa planeja lançar. O Phi-3 Mini já está disponível no Azure, Hugging Face e Ollama.

Depois de lançar o Phi-2 em dezembro, a Microsoft anunciou o Phi-3 Mini com um desempenho superior à sua versão anterior, podendo oferecer respostas quase equivalentes às de um modelo dez vezes maior, de acordo com a empresa. O lançamento do Phi-3 Mini incluiu a apresentação de uma série de pequenos modelos de linguagem que a empresa promete lançar nas próximas semanas, incluindo o Phi-3-Small (7B) e o Phi-3-Medium (14B), que estarão disponíveis no catálogo de modelos do Azure AI e em outras plataformas.

Leia também: Microsoft: 4 perguntas para implementar uma estratégia de IA que impacte o negócio 

Misha Bilenko, vice-presidente corporativo da Microsoft GenAI, afirma que os modelos Phi-3 superam significativamente outros de mesmo tamanho ou maiores em benchmarks essenciais. O Phi-3-mini supera modelos duas vezes maiores, enquanto Phi-3-small e Phi-3-medium superam até o GPT-3.5T, segundo Bilenko. Os números são comparáveis devido ao mesmo pipeline de produção, embora possam variar ligeiramente de outras avaliações.

“Graças ao seu tamanho menor, os modelos Phi-3 podem ser usados ​​em ambientes de inferência com computação limitada. Phi-3-mini, em particular, pode ser usado no dispositivo, especialmente quando otimizado com ONNX Runtime para disponibilidade em várias plataformas”, escreveu Bilenko no blog da Microsoft Azure.

Modelos de IA menores são geralmente mais acessíveis para operar em comparação com seus equivalentes maiores e funcionam melhor em dispositivos pessoais, como telefones e laptops.

“O tamanho menor dos modelos Phi-3 também torna o ajuste fino ou a personalização mais fácil e acessível. Além disso, suas menores necessidades computacionais os tornam uma opção de menor custo e com latência muito melhor. A janela de contexto mais longa permite compreender e raciocinar sobre grandes conteúdos de texto – documentos, páginas da web, código e muito mais”, adicionou.

Eric Boyd, vice-presidente corporativo da plataforma de IA do Azure da Microsoft, explicou ao The Verge que o treinamento do Phi-3 envolveu a criação de um “currículo” inspirado na forma como as crianças aprendem, usando histórias simples e estruturas de frases adaptadas para facilitar o entendimento do modelo. “Não há livros infantis suficientes por aí, então pegamos uma lista de mais de 3.000 palavras e pedimos a um LLM para fazer ‘livros infantis’ para ensinar Phi”, disse Boyd.

Segundo o executivo, o Phi-3 avançou progressivamente, aproveitando os aprendizados das versões anteriores. Enquanto o Phi-1 se dedicava à codificação e o Phi-2 começava a desenvolver habilidades de raciocínio, o Phi-3 se destaca tanto na codificação quanto no raciocínio. Embora os modelos Phi-3 possuam algum conhecimento geral, Boyd observou que eles não podem rivalizar com a abrangência de um GPT-4 ou outro LLM.

No entanto, para muitas empresas, especialmente aquelas com conjuntos de dados internos relativamente pequenos, os modelos de IA menores como o Phi-3 oferecem uma solução mais acessível e eficaz para suas necessidades específicas, disse Boyd.

*Com informações do The Verge

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

Recent Posts

Tecnologia apoia a comprovação do ROI de ações ESG

A comprovação do retorno sobre o investimento (ROI) de ações ESG é um dos principais…

3 horas ago

EXCLUSIVO: Procergs migra dados para a nuvem em caráter de urgência por risco de inundação no RS

Em resposta imediata a uma catástrofe natural, a Procergs, responsável pela gestão da tecnologia da…

4 horas ago

Arquiteturas híbridas de cloud: por que o tema voltou à tona?

Os resultados da pesquisa "Antes da TI, a Estratégia 2024", apresentados durante o IT Forum…

4 horas ago

GDM e Black & Decker: casos de uso com a IA generativa

Mais da metade (69%) das empresas brasileiras dizem já ter alguma iniciativa em IA tradicional…

21 horas ago

Tecnologia como protagonista em discussões de comitês empresariais

Entre os líderes de TI brasileiros, 77% têm a perspectiva de manter ou crescer o…

23 horas ago

Infraestrutura de TI também precisa evoluir para apoiar a sustentabilidade

Durante o IT Forum Trancoso, as discussões sobre sustentabilidade estão diretamente ligadas à evolução de…

1 dia ago