Um novo sistema de reconhecimento que permite a pesquisa especifica de personagens ou de cenas está a ser desenvolvida por uma equipa da Disney’s Direct-to-Consumer & International Organization (DTCI).
A plataforma chamada de Content Genome (Genoma de Conteúdo) está a ser construída de forma a ajudar outras I.A. a encontrar informações mais específicas sobre ficheiros dos enormes arquivos da Disney que possam ajudar animadores e criadores de conteúdo da empresa a trabalhar em novos segmentos de animação.
Anthony Accardo, diretor da equipa de pesquisa, explicou que este sistema pode ajudar um animador a encontrar uma cena muito específica de um certo filme ou série para depois poder ser usada como ponto de referência. O animador não terá assim de perder várias horas a pesquisar na Internet.
Accardo explicou que para um sistema assim será necessário desenvolver uma robusta taxonomia que seja capaz de lidar com grandes quantidades de metadata ligada a imensos atributos diferentes. “É necessário começar a pensar em como gerir esses termos e identificações. Se deixarem essas taxonomias sair fora de controlo, então a informação resultante que geram será mais difícil de aproveitar.”
A equipa de pesquisa concebeu um sistema de tagging que é vital para a aprendizagem supervisionada do sistema, pois é utilizado várias vezes em situações que requerem uma deteção específica. A equipa de pesquisa explicou que “tagging é a única maneira de de identificar uma grande quantidade de história contextual e informação de personagens a partir de dados, como enredos, arquétipos e motivações de personagens.” A
pós isto a equipa juntou o sistema de tagging ao reconhecimento facial e aplicou-o ao catálogo de filmes e séries pertencentes à Disney. O sistema conseguiu detetar e reconhecer faces humanas com sucesso e utilizando isto foi possível à equipa começar a treinar o sistema para detetar localizações.
O passo seguinte foi fazer com que fosse possível ao sistema reconhecer caras que não fossem humanas. Miquel Àngel Farré, Manager de pesquisa e desenvolvimento da DTCI, explicou que este reconhecimento seria demasiado complexo através de aprendizagem tradicional. O método provou-se desafiante e com resultados mistos, visto que apesar do sistema conseguir detetar cores, brilho e alterações de textura não lhe era possível distinguir uma cara que estivesse fora das características base de uma cara humana.
A equipa recorreu assim a aprendizagem profunda. Farré explicou que “para personagens animadas, é uma daquelas coisas em que não existe outra maneira de o fazer.” O problema deste método é que para aprendizagem profunda os conjuntos de informação são enormes, e devido a isto a equipa de pesquisa utilizou amostras do que já tinha para afinar a arquitetura de outro sistema de deteção de objetos, Faster-R CNN Object Detector, que já tinha sido treinado para detetar caras animadas num catálogo diferente da Disney. Isto permitiu adaptar um sistema já existente às necessidades da empresa norte-americana.
Depois de um ajuste para corrigir resultados positivos falsos foi adicionado ao sistema o novo detetor facial. Também foram adicionados outros algoritmos, incluindo rastreadores de caixas delimitadoras, que ajudam a acelerar o processamento visto que são necessárias menos deteções.
Anthony Accardo explicou que se um derivado do sistema for disponibilizado ao público então o classificador terá de ser treinado, preciso e personalizado para o efeito, visto que o processo pode não ser todo automatizado já que depende de como a informação é utilizada.
Accardo e a sua equipa também esperam poder expandir as habilidades do sistema de forma a entender conceitos generalizados ao utilizar métodos de aprendizagem multimodal semelhantes aos da PyTorch que já foram utilizados neste projeto. Mas para isso mais desenvolvimento será necessário.
Esta tecnologia poderá também ser um grande passo para a frente com os consumidores pois poderá vir a possibilitar uma eficiência melhorada com motores de busca e de recomendações de forma a organizar o contéudo que seja de interesse do consumidor.
Fonte: Engadget