A Microsoft desenvolveu um mecanismo de inteligência artificial que consegue reproduzir vozes humanas a partir de amostras de pelo menos três segundos. Treinada com mais de 60 mil horas de áudios em inglês, a IA VALL-E consegue criar falas a partir de textos e simular emoções, diferentes tons de voz e até criar expressões e falas inexistentes no áudio original.
A tecnologia que foi agora apresentada precisa de apenas três segundos para se familiarizar com o registo e promete acabar com as “vozes mecânicas” na leitura de textos, imitando qualquer voz humana.
O VALL-E é uma inteligência artificial text-to-speech que pega em pequenas faixas de voz como exemplo e modifica-as para ler um pequeno excerto de texto, com pausas e diferentes entoações conforme a pontuação que lhe é dada.
Assim como a geração de imagens é feita a partir de referências, a IA VALL-E apresenta os seus perigos, uma vez que consegue simular vozes de outras pessoas sem a devida autorização. Assim, discursos políticos poderiam facilmente ser adulterados, os seus amigos poderiam começar a dizer o que não se quer ouvir, os locutores de rádio deixariam de fazer sentido enquanto profissão e o nosso artista favorito também poderia ter declarações menos felizes.
A Microsoft diz que, ao contrário de outras ferramentas existentes no mercado, a IA produzida pela empresa não trabalha nas ondas sonoras, mas usa códigos de codec (codificador) de áudio a partir de prompts (comandos) de texto e acústicos.
As vozes sintéticas também poderiam ser usadas para atacar pessoas específicas, como simular sequestros, pedidos de resgate e fazer todo o tipo de ofensas, ou, por outro lado, conseguir simular operações bancárias.
Devido a todos estes perigos e às questões éticas que aqui se levantam, a VALL-E ainda não está disponível para o público geral e só se podem ouvir os seus feitos a partir das amostras divulgadas pela Microsoft.
Fonte: Intresting Engineering