Notícias

Tecnologia do Google cria objetos 3D a partir de imagens 2D

A divisão de Inteligência Artificial do Google, a DeepMind, anunciou recentemente o desenvolvimento de um algoritmo de visão computacional que consegue gerar objetos 3D a partir de imagens em 2D. Chamada de Generative Query Network, ou GQN, a solução pode “imaginar” e renderizar uma cena a partir de qualquer ângulo, conforme a gigante de buscas. 

“De forma muito parecida com crianças e animais, a GQN aprende ao tentar fazer sentido das suas observações sobre o mundo ao redor. Ao fazer isso, a GQN aprende sobre cenas plausíveis e suas propriedades geométricas…sem a anotação humana dos conteúdos das cenas”, explicam os pesquisadores da DeepMind em um post sobre a novidade no blog da empresa

Basicamente, a GQN busca replicar o funcionamento do cérebro humano na hora de aprender sobre os seus arredores. “Há mais do que aparenta quando se trata de como entendemos uma cena visual: nossos cérebros recorrem ao conhecimento prévio da razão e fazem inferências que vão muito além dos padrões de luz que atingem nossas retinas. Por exemplo, ao entrar em uma sala pela primeira vez, você reconhece instantaneamente os itens que ela contém e onde eles estão posicionados. Se você vir três pernas de uma mesa, inferirá que provavelmente há uma quarta perna com a mesma forma e cor ocultas. Mesmo que você não consiga ver tudo na sala, provavelmente será capaz de esboçar seu layout ou imaginar o que parece de outra perspectiva”, explicam os técnicos do Google.

“À medida que desenvolvemos máquinas mais complexas que operam no mundo real, queremos que elas entendam completamente o ambiente: onde está a superfície mais próxima para se sentar? De que material é feito o sofá? Qual fonte de luz está criando todas as sombras? Onde está o interruptor de luz”. 

Com algumas imagens, por exemplo, o algoritmo pode renderizar partes não vistas nas fotos e gerar uma visualização em 3D do local, tudo isso sem supervisão humana. 

Segundo os pesquisadores da subsidiária do Google, a nova solução é composta de duas partes: uma rede de representação e uma rede de geração. “A rede de geração pega as observações do agente como sua absorção e produz uma representação (um vetor) que descreve a cena implícita. A rede de geração então prevê (“imagina”) a cena a partir de um ponto de vista não observado anteriormente.”

Vale notar que o algoritmo ainda está em seu estágio inicial, já que foi testado apenas com cenas simples com poucos objetos. “Apesar de ainda existir muita pesquisa a ser feita antes que a nossa abordagem esteja pronta para ser colocada em prática, acreditamos que esse trabalho é um passo significativo em direção à compreensão totalmente autônoma de cenas.”

Como funciona
Em um artigo publicado na Science  ( Open Access version ), os especialistas do Google apresentam a Generative Query Network (GQN) como um framework no qual as máquinas aprendem a perceber seu entorno treinando apenas os dados obtidos por eles mesmos enquanto se movimentam pelas cenas. Assim como bebês e animais, o GQN aprende tentando entender suas observações do mundo ao seu redor. Ao fazê-lo, o GQN aprende sobre cenas plausíveis e suas propriedades geométricas, sem qualquer rotulação humana do conteúdo das cenas.

O modelo GQN é composto de duas partes: uma rede de representação e uma rede de geração. A rede de representação toma as observações do agente como sua entrada e produz uma representação (um vetor) que descreve a cena subjacente. A rede de geração então prediz (imagina) a cena a partir de um ponto de vista anteriormente não observado.

A rede de representação não sabe quais pontos de vista a rede de geração será solicitada a prever, portanto, deve encontrar uma maneira eficiente de descrever o layout real da cena com a maior precisão possível. Isso é feito capturando os elementos mais importantes, como posições de objetos, cores e layout da sala, em uma representação distribuída concisa, explica o texto no blog do Google.

Durante o treinamento, o gerador aprende sobre objetos, características, relacionamentos e regularidades típicos no ambiente. Esse conjunto compartilhado de ‘conceitos’ permite que a rede de representação descreva a cena de maneira altamente comprimida e abstrata, deixando que a rede de geração preencha os detalhes quando necessário.

Embora reconheça que ainda há muito mais pesquisas a serem feitas antes que a abordagem esteja pronta para ser implantada na prática, o Google acredita que esse trabalho é um passo considerável para o entendimento de cena totalmente autônomo.

Recent Posts

MakeOne anuncia nova divisão focada em soluções de inteligência artificial

A MakeOne, empresa de soluções de comunicação unificada, mobilidade, CX e consultoria, anunciou sua nova…

7 horas ago

33% das empresas no Brasil aproveitam inovações tecnológicas para atingir metas de sustentabilidade, aponta estudo

Em um estudo recente intitulado "The Global Sustainability Barometer", realizado pela Ecosystm e divulgado pela…

9 horas ago

Investigação da Justiça dos EUA examina alegações de fraude na Tesla

O Departamento de Justiça dos Estados Unidos lançou uma investigação sobre a Tesla, visando alegações…

10 horas ago

Restrições dos EUA à Huawei impactam receita da Intel e mercado de semicondutores

As recentes restrições impostas pelos Estados Unidos à Huawei, uma das maiores empresas de telecomunicações…

12 horas ago

HP lança programa para parceiros focado em venda de IA

A HP anunciou essa semana o “go-live” de um conjunto de novos benefícios para parceiros…

13 horas ago

Visa aprimora uso de IA generativa em solução de pontuação antifraude

A bandeira internacional de pagamento Visa intensificou o uso de inteligência artificial generativa (GenAI) em…

14 horas ago