Como a Amazon usa aprendizado de máquina para agilizar listagem de produtos

Em conversa com o IT Forum, líder de Data Science e ML da Amazon Latam contou sobre iniciativa que usa IA e ajudou a empresa durante o Prime Day

8:58 am - 14 de julho de 2023

William Giotto, líder de Data Science e Machine Learning para a Amazon.com na América Latina (Imagem: Divulgação/Amazon)

“É difícil pensar em algum projeto da Amazon que não use algum tipo de aprendizado de máquina“. É assim que William Giotto, líder de Data Science e Machine Learning para a Amazon.com na América Latina, definiu a relação da gigante do varejo online com o uso de dados e sistemas de inteligência artificial em seus produtos.

O Amazon Prime Day 2023, é claro, não é exceção à essa regra. Realizado nesta semana, entre os dias 11 e 12 de julho, o evento de compras da Amazon é uma das datas mais importantes de seu calendário – que nasceu como celebração do aniversário da Amazon e hoje traz milhares de ofertas especiais para os assinantes do serviço Amazon Prime.

Até o fechamento deste texto, os números consolidados sobre o resultado do Prime Day 2023 ainda não estavam disponíveis. Dois dados públicos, no entanto, já atestaram o sucesso da data: o tráfego deste ano foi 100% maior quando comparado ao Prime Day 2022 no Brasil, incluindo um pico de três milhões de acessos.

Um dos exemplos do como a aplicação de aprendizado de máquina pela Amazon esteve presente no Prime Day é na indexação dos produtos em sua plataforma. Com milhões de listagens à venda, a Amazon tem um esforço constante de organização e hierarquização dessas ofertas, o que inclui a checagem de imagens, de descrições de produtos e tabelas de informações para garantir que tudo esteja correto e em linha com o que os usuários estão buscando.

“Toda essa checagem é feita por aprendizado de máquina. Existe um processo contínuo de aprendizado de máquina, varrendo o catálogo, encontrando discrepâncias e apontando algum tipo de correção, dando sugestões”, explicou Giotto durante um evento para a imprensa realizado pela Amazon, em São Paulo, para marcar o término do Prime Day. Com o sistema, a Amazon consegue evitar incongruências como, por exemplo, a listagem de um produto com fotos de um outro produto não relacionado ou com uma descrição que não esteja de acordo com as orientações da empresa.

Por trás dessa ação está o projeto M5, um esforço para a construção de uma ‘representação semântica universal’ de entidades dentro da Amazon. O termo ‘entidades’ se refere a elementos como produtos, buscas e sessões de compras dentro do e-commerce da Amazon. Para criar essa representação semântica universal – que pode ser lida pelos sistemas de aprendizado de máquina da Amazon de maneira uniforme – a companhia usa uma mistura de dados estruturados e não-estruturados, incluindo imagens, comentários de usuários, dados em tabelas e textos corridos de descrição.

Uma vez composta essa representação universal do produto, todos os dados podem ser inseridos no modelo amplo de linguagem (LLM) da companhia e correlacionados. Através disso, a empresa é capaz de realizar ações como a varredura automatizada de produtos em escala, mas também diversos outros casos de uso dentro do ecossistema Amazon.

Ao contrário de modelos públicos de muitos bilhões de parâmetros – como é, por exemplo, o do ChatGPT – , o modelo da Amazon também é capaz de ser rodado para treinar outros modelos menores, em instâncias de baixo custo computacional e de inferência mais rápida. Com isso, a empresa consegue se preparar melhor para eventos como o próprio Prime Day.

Veja mais: IA acabará com esses empregos – mas criará outros também

“Por exemplo, em ofertas, quando estamos próximos do Prime Day, há muita coisa nova – milhares e milhares de produtos que podem ser treinados em 10 minutos e nos dias que antecedem o Prime Day”, afirmou. “Os modelos grandes ensinam modelos menores, e usamos os modelos menores para fazer uma inferência mais rápida. É uma tendência do mercado.”

Isso não significa que sua implementação não tenha passado por alguns desafios. Um deles foi o processo de localização, que, segundo Giotto, demorou cerca de dois meses para acontecer no Brasil. “Muitos destes produtos funcionam em escala global, mas nós precisamos aplicar os principais modelos e treiná-los para nossa realidade. Para o mercado local, na língua local, para o cliente local e para os produtos locais”, pontuou.

Além disso, o sistema não é completamente autônomo e exige uma supervisão humana. De acordo com o líder de Data Science & Machine Learning, o processo é acompanhado por checagem de pessoas, que varia de acordo com a importância e relevância do produto dentro do ecossistema da Amazon.

“Inteligência artificial que é 100% não existe. Por isso é um método estatístico, não determinístico. A gente usa essa tecnologia junto com o método determinístico, que é toda a área de tecnologia, que faz as regras e mantém todos os sistemas”, disse Giotto. “Para a classificação de catálogos, temos algumas métricas que classificam o grau de interesse do mercado no produto. O impacto que o produto tem no mercado. Então aumentamos a barra de quanto o modelo pode errar ou não e o quanto uma pessoa precisa fazer a validação.”

Na evolução deste projeto, um dos princípios que têm regido a continuação do seu desenvolvimento é o da interpretabilidade: o plano da Amazon é que o modelo seja o mais simples possível de ser interpretado por áreas de negócios ou até por parceiros da empresa, como parceiros de vendas.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

Tags: