Inteligência artificial aprende a identificar objetos em diferentes perspetivas

A capacidade que nos permite visualizar perspetivas com base na percepção visual é, sem dúvida, uma função-chave do sistema cognitivo do ser humano e de muitos animais. Uma presunção comum sobre a inteligência artificial é que o seu objetivo é construir máquinas com uma capacidade semelhante de compreensão de humanos. A comunidade científica de pesquisa em inteligência artificial, no entanto, estabeleceu uma abordagem mais pragmática. Em vez de tentar modelar ou quantificar o entendimento diretamente, o objetivo passa por construir máquinas que simplesmente resolvam tarefas que parecem exigir compreensão. A informação é divulgada por Matthias Zwicker num artigo científico da revista Science.

A inteligência artificial permitiu que computadores conseguissem ser ensinados de forma a compreenderem de forma semelhante o meio que os rodeia como se de humanos se tratassem. O mais simples computador doméstico não consegue ter a mesma perceção que um humano, que olha para um objeto e sabe perceber que esse objeto não é uma figura bidimensional, mas sim tridimensional. Que consegue perceber que existem mais objetos ou espaços atrás desse obstáculo.  Este tipo de capacidade de compreensão do espaço foi introduzido num sistema de inteligência artificial, embora de forma mais limitada. Os investigadores da DeepMind, a empresa de inteligência artificial do Google, são os responsáveis por este avanço tecnológico.

Inteligência Artificial: esquema representativo do funcionamento da rede neural

Processo de compreensão

A equipa conseguiu desenvolver um sistema em que as máquinas conseguem interpretar imagens bidimensionais em um espaço tridimensional com objectos e conceber como seria esse espaço se o estivessem a visualizar de outra perspectiva. Todo o processo prescinde de explicações introduzidas por humanos.

Embora a equipa de pesquisa da DeepMind tenha feito um progresso ainda que limitado em direção a uma análise teórica da aprendizagem de compreensão não supervisionada, esta alcançou alguns sucessos notáveis nas suas experiências. Amplamente inspiradas na estrutura de cérebros biológicos, as técnicas mais bem-sucedidas dependem de redes neurais artificiais como é o caso das estruturas computacionais. Assim como os cérebros biológicos, os neurónios em redes neurais artificiais (RNAs) recebem múltiplos inputs (entradas de informação) de outros neurónios, que realizam uma computação simples e enviam os outputs (saída de informação/resultados) para outros neurónios. As conexões neuronais em RNAs são fixas. Como tal, os neurónios são treinados ajustando o cálculo de output de cada neurónio.

 

Materiais usados para interpretação das cenas

Com este projeto, a abordagem de Eslami et al. leva este conceito um passo adiante ao abordar o problema de entender ambientes tridimensionais (3D) em vez de imagens 2D. No entanto, um dos principais desafios na compreensão de uma cena 3D é que a maioria dos dispositivos sensoriais, como câmeras digitais, não pode adquirir cenas 3D diretamente. Para tal, esses dispositivos registram apenas vistas 2D. A rede neural, mais conhecida por inteligência artifícial tem de resolver esse problema de uma maneira elegante renderizando visões 2D de ambientes 3D virtuais, através de um algoritmo de computador padrão. Tendo de aprender sozinhas (através da análise de milhões de exemplos) a identificar elementos como as cores, o tamanho, a textura, bem como a disposição e o número de objectos.

Em específico nesta abordagem, é permitido que elas produzam vistas 2D de qualquer ponto de vista desejado. A equipa treinou esta inteligência numa rede neural com uma arquitetura de codificação que consegue prever novas visões de uma cena 3D a partir de duas perspetivas próximas da mesma cena, que são fornecidas ao codificador como inputs. Este passo é a ideia chave que facilita a compreensão nesta aprendizagem, como mostram as experiências.

Possíveis aplicações

Os investigadores mostraram também que através deste método de compreensão de perspetiva aprendido, esta tecnologia pode ser usada para controlar um braço robótico virtual, que navegue em um espaço 3D simples com base em visualizações 2D adquiridas por uma câmera previamente.

Inteligência Artificial: imagem representativa de um cenário compreendido pela rede

Assim, como qualquer outro trabalho feito por esta empresa, a Google, a investigação não vem sem limitações. O mais importante nestas experiências está restrito a cenas 3D simples, tratando-se apenas, de alguns objetos geométricos básicos. Portanto, ainda não está claro até que ponto esta abordagem poderia chegar à compreensão de ambientes mais complexos do mundo real, tornando-se mais útil, por exemplo, para implementar o controlo de equipamentos robóticos.

Fonte Science

DEIXE UMA RESPOSTA

Please enter your comment!
Please enter your name here