No recente evento DevDay da OpenAI, a estrela do show foi o lançamento do GPT-4 Turbo e dos GPTs personalizados. Contudo, uma nova IA, a Whisper V3, tem vindo a ganhar destaque e a ser valorizada pela sua capacidade de transcrição de áudio para texto.
A Whisper V3 é uma IA open source, ao contrário do ChatGPT ou DALL·E, e já está disponível para uso online gratuito através de plataformas como Hugging Face ou Replicate. Espera-se que em breve tenha vários clientes de desktop, como o Buzz, que funciona com Whisper V2.
Até há cerca de um ano, a transcrição de áudio para texto era um desafio para a maioria dos utilizadores, pois as ferramentas gratuitas disponíveis costumavam cometer muitos erros. Whisper V2 foi a primeira ferramenta gratuita que convenceu muitos utilizadores, mas com o Whisper V3, temos a sensação de que é o equivalente no seu campo ao ChatGPT, uma IA que os desenvolvedores de software vão começar a implementar em breve nas suas próprias aplicações.
A versatilidade do Whisper V3 torna-o ideal tanto para tarefas simples de transcrição como para aplicações mais complexas no campo da assistência por voz.
O que o Whisper V3 oferece
O Whisper V3 foi treinado com mais de um milhão de horas de áudio. Comparado com a sua versão anterior, o Whisper V3 conseguiu reduzir os erros entre 10 e 20%. Uma das características mais notáveis do Whisper V3 é a sua capacidade multitarefa: pode ser usado para reconhecer e traduzir vários idiomas. Além disso, este modelo é capaz de identificar automaticamente quando se muda de um idioma para outro numa mesma conversação, tornando-o uma ferramenta extremamente versátil.
A OpenAI disponibilizou modelos de Whisper V3 de diferentes tamanhos (e, portanto, de diferentes níveis de desempenho), desde uma versão minúscula com menos de 1 GB de VRAM até ao modelo large, treinado com 1.550 milhões de parâmetros e com requisitos de cerca de 10 GB de VRAM. Isto permite que o Whisper V3 se adapte a diferentes aplicações e necessidades, oferecendo flexibilidade aos utilizadores.
Na minha opinião, o Whisper V3 é um exemplo brilhante do potencial da IA para melhorar a nossa interação com a tecnologia e tornar as nossas vidas mais fáceis. A sua capacidade de transcrição precisa e a sua versatilidade fazem dele uma ferramenta indispensável para quem precisa de transcrever áudio para texto. Estou ansioso para ver como esta tecnologia será implementada e utilizada no futuro.
Fonte: DataConomy