Meta apresenta ImageBind, um modelo de AI open-source capaz de combinar seis tipos de dados num único índice, incluindo texto, áudio, imagens visuais, temperatura e leituras de movimento. Embora o ImageBind ainda não tenha aplicativos para consumidores, modelos futuros podem gerar experiências multissensoriais, incluindo ambientes de realidade virtual, que combinam movimentos e entradas sensoriais.
A Meta, atualmente dona do Facebook, tem investido em pesquisas na área de inteligência artificial nos últimos anos e tem sido elogiada pela sua abertura em relação à partilha de pesquisa com outras empresas e organizações. O ImageBind é um exemplo disso: tornando o modelo open-source, a Meta espera encorajar a comunidade a explorar as suas possibilidades e testá-lo em diferentes cenários.
Para entender melhor como o ImageBind funciona, é necessário analisar como as diferentes entradas de dados são processadas e combinadas. Por exemplo, uma imagem captada por uma câmera pode ser analisada através de técnicas de visão computacional para identificar objetos ou rostos. Essas informações podem ser combinadas com dados de áudio, que podem ser transcritos em texto, permitindo que a imagem seja descrita em palavras. A temperatura e as leituras de movimento também podem ser usadas para contextualizar a imagem: se um objeto estiver muito quente ou a mover-se rapidamente, isso pode indicar uma situação de risco ou de alta energia.
O ImageBind também é capaz de obter informações de profundidade usando técnicas de visão computacional, que permitem identificar a distância entre objetos e entre uma câmera. Isso pode ser especialmente útil para aplicações em realidade aumentada ou realidade virtual, permitindo que o sistema crie uma representação mais precisa do ambiente e do utilizador.
Numa publicação no blog, a Meta observa que outro fluxo de entrada sensorial pode ser adicionado a modelos futuros, incluindo “toque, fala, cheiro e sinais cerebrais de fMRI”. Meta afirma também que a pesquisa “traz às máquinas um passo mais perto da capacidade dos humanos de aprender simultaneamente, de forma holística e diretamente de muitas formas diferentes de informação”.
Assim, o ImageBind é um modelo de AI open-source promissor que pode ter aplicações em várias áreas. A sua capacidade de combinar diferentes tipos de dados em um índice unificado o torna especialmente útil para aplicações em que a informação sensorial precisa ser integrada de forma eficiente. Com a Meta a partilhar a tecnologia com a comunidade, é provável que vejamos desenvolvimentos interessantes no campo da computação multissensorial nos próximos tempos.
Fonte: Facebook