Publicidade

Correio Braziliense

Google cria sistema capaz de gerar, sozinho, representações em 3D

Algoritmo de inteligência artificial gera a representação em 3D de um ambiente e simula perspectivas de visão em ângulos que não registrou diretamente


postado em 15/06/2018 06:00 / atualizado em 14/06/2018 23:47

(foto: Josh Edelson/AFP)
(foto: Josh Edelson/AFP)

Um fotógrafo experiente sabe o quanto a mudança de ângulo pode transformar um registro. Os amadores também arriscam, e saem as tradicionais fotos de viagem, como as de turistas segurando a italiana Torre de Pisa. A capacidade para visualizar como a combinação ficará depois do clique, porém, não é mais exclusiva dos humanos: pesquisadores da Google DeepMind criaram um algoritmo capaz de, literalmente, ver as coisas por outro ponto de vista.

O sistema, apresentado em um artigo publicado na edição de hoje da revista Science, consegue gerar a representação em três dimensões de um ambiente usando até cinco imagens 2D. Após esse processo, o algoritmo ainda prevê como o ambiente é visto de um ângulo completamente novo, que ele nunca observou diretamente. É como olhar para poucas fotografias do Congresso Nacional e ser capaz de desenhar um ponto de vista que não aparece nas fotos.

“Como a maior parte do mundo está escondida de nós a cada momento, a visão é um processo ambíguo”, afirma Danilo Rezende, um dos autores da pesquisa. “Humanos reduzem essa ambiguidade ao preencher os detalhes que faltam com conhecimentos aprendidos e inatos sobre o mundo. Porém, isso ainda é um desafio para máquinas.”

Os criadores do Generative Query Network (GQN) — algo como rede de consulta gerativa — usaram apenas ambientes criados em computador, contendo formas geométricas muito simples, o que faz com que a tecnologia esteja em estágio bastante inicial. Porém, segundo especialistas, ela contribui para o conhecimento na área de inteligência artificial, e abordagens parecidas poderão produzir modelos 3D sem depender de grande quantidade de imagens capturadas cuidadosamente, como é feito hoje com os videogames.

 

(foto: Valdo Virgo/CB/D.A Press)
(foto: Valdo Virgo/CB/D.A Press)

 

Em camadas

O GQN é dividido em duas partes: uma rede de representação, que junta informações sobre o ambiente 3D; e uma rede de geração, que simula a imagem da cena vista de qualquer ângulo. Primeiro, cria-se a simulação por computador, contendo formas geométricas, cores e iluminação bastante simples. O sistema recebe até cinco imagens de ângulos distintos dessa cena, como se fossem fotos tiradas por um observador no local.

Por ser uma rede neural profunda, o algoritmo tem diversas camadas pelas quais as informações são processadas. Os resultados da primeira camada são passados para a próxima, e assim por diante, até que os dados sejam reduzidos a um conjunto com 256 números, codificando as características da cena.

Após esse processo, o GQN tem um modelo das posições, cores e iluminação do ambiente tridimensional. Usando essas informações, ele gera uma imagem simulada da cena vista a partir de qualquer ângulo e que se aproxima bastante da realidade. Mas não infalível: se existe um objeto muito pequeno perto de um grande, por exemplo, e as imagens iniciais não o mostrarem, ele não aparecerá na simulação.

“Não estava nem um pouco claro se uma rede neural poderia, algum dia, criar imagens de forma tão precisa e controlada”, diz Ali Eslami, um dos autores do estudo. “Porém, descobrimos que redes suficientemente profundas podem aprender sobre perspectiva, oclusão e iluminação. Isso foi uma descoberta muito surpreendente.”

Limitações

Bogdan Tomoyuki Nassu, professor do Departamento Acadêmico de Informática da Universidade Tecnológica Federal do Paraná, chama a atenção para o fato de o computador ter realizado a tarefa sem intervenção humana. “Ele representa a cena de forma compacta e produz novas imagens sem nunca ter sido diretamente programado para criar representações 3D”, ressalta. Porém, para o professor, há limitações na técnica. Não é possível saber, de fato, se o algoritmo conhece a posição dos objetos no espaço, porque apenas o sistema é capaz de entender os seus códigos. O máximo que se pode fazer é testar o seu conhecimento, mas essa característica não é exclusiva. “Eu também não saberia dizer as coordenadas do vértice no canto superior esquerdo da porta mais próxima”, ilustra Nassu.

“Humanos preenchem os detalhes que faltam com conhecimentos aprendidos e inatos sobre o mundo. Porém, isso ainda é um desafio para as máquinas” 
Danilo Rezende, pesquisador da Google DeepMind e um dos autores do estudo

Os comentários não representam a opinião do jornal e são de responsabilidade do autor. As mensagens estão sujeitas a moderação prévia antes da publicação

Publicidade