Tecnologia do Google cria objetos 3D a partir de imagens 2D

Chamado de Generative Query Network, ou GQN, novo algoritmo de visão computacional da DeepMind consegue renderizar uma cena a partir de qualquer ângulo.

12:06 pm - 15 de junho de 2018

A divisão de Inteligência Artificial do Google, a DeepMind, anunciou recentemente o desenvolvimento de um algoritmo de visão computacional que consegue gerar objetos 3D a partir de imagens em 2D. Chamada de Generative Query Network, ou GQN, a solução pode “imaginar” e renderizar uma cena a partir de qualquer ângulo, conforme a gigante de buscas.

“De forma muito parecida com crianças e animais, a GQN aprende ao tentar fazer sentido das suas observações sobre o mundo ao redor. Ao fazer isso, a GQN aprende sobre cenas plausíveis e suas propriedades geométricas…sem a anotação humana dos conteúdos das cenas”, explicam os pesquisadores da DeepMind em um post sobre a novidade no blog da empresa.

Basicamente, a GQN busca replicar o funcionamento do cérebro humano na hora de aprender sobre os seus arredores. “Há mais do que aparenta quando se trata de como entendemos uma cena visual: nossos cérebros recorrem ao conhecimento prévio da razão e fazem inferências que vão muito além dos padrões de luz que atingem nossas retinas. Por exemplo, ao entrar em uma sala pela primeira vez, você reconhece instantaneamente os itens que ela contém e onde eles estão posicionados. Se você vir três pernas de uma mesa, inferirá que provavelmente há uma quarta perna com a mesma forma e cor ocultas. Mesmo que você não consiga ver tudo na sala, provavelmente será capaz de esboçar seu layout ou imaginar o que parece de outra perspectiva”, explicam os técnicos do Google.

“À medida que desenvolvemos máquinas mais complexas que operam no mundo real, queremos que elas entendam completamente o ambiente: onde está a superfície mais próxima para se sentar? De que material é feito o sofá? Qual fonte de luz está criando todas as sombras? Onde está o interruptor de luz”.

Com algumas imagens, por exemplo, o algoritmo pode renderizar partes não vistas nas fotos e gerar uma visualização em 3D do local, tudo isso sem supervisão humana.

Segundo os pesquisadores da subsidiária do Google, a nova solução é composta de duas partes: uma rede de representação e uma rede de geração. “A rede de geração pega as observações do agente como sua absorção e produz uma representação (um vetor) que descreve a cena implícita. A rede de geração então prevê (“imagina”) a cena a partir de um ponto de vista não observado anteriormente.”

Vale notar que o algoritmo ainda está em seu estágio inicial, já que foi testado apenas com cenas simples com poucos objetos. “Apesar de ainda existir muita pesquisa a ser feita antes que a nossa abordagem esteja pronta para ser colocada em prática, acreditamos que esse trabalho é um passo significativo em direção à compreensão totalmente autônoma de cenas.”

Como funciona
Em um artigo publicado na Science ( Open Access version ), os especialistas do Google apresentam a Generative Query Network (GQN) como um framework no qual as máquinas aprendem a perceber seu entorno treinando apenas os dados obtidos por eles mesmos enquanto se movimentam pelas cenas. Assim como bebês e animais, o GQN aprende tentando entender suas observações do mundo ao seu redor. Ao fazê-lo, o GQN aprende sobre cenas plausíveis e suas propriedades geométricas, sem qualquer rotulação humana do conteúdo das cenas.

O modelo GQN é composto de duas partes: uma rede de representação e uma rede de geração. A rede de representação toma as observações do agente como sua entrada e produz uma representação (um vetor) que descreve a cena subjacente. A rede de geração então prediz (imagina) a cena a partir de um ponto de vista anteriormente não observado.

A rede de representação não sabe quais pontos de vista a rede de geração será solicitada a prever, portanto, deve encontrar uma maneira eficiente de descrever o layout real da cena com a maior precisão possível. Isso é feito capturando os elementos mais importantes, como posições de objetos, cores e layout da sala, em uma representação distribuída concisa, explica o texto no blog do Google.

Durante o treinamento, o gerador aprende sobre objetos, características, relacionamentos e regularidades típicos no ambiente. Esse conjunto compartilhado de ‘conceitos’ permite que a rede de representação descreva a cena de maneira altamente comprimida e abstrata, deixando que a rede de geração preencha os detalhes quando necessário.

Embora reconheça que ainda há muito mais pesquisas a serem feitas antes que a abordagem esteja pronta para ser implantada na prática, o Google acredita que esse trabalho é um passo considerável para o entendimento de cena totalmente autônomo.