OpenAI lança 3 modelos de voz e mexe com o mercado
O novo GPT-Realtime-2 leva raciocínio de nível GPT-5 para voz em tempo real e chega com tradução em directo e transcrição mais barata.
Neste artigo encontras:
A OpenAI acaba de reforçar a sua aposta na voz com três novos modelos na API, e o impacto pode ser imediato para empresas, programadores e até rivais do sector. O destaque vai para o GPT-Realtime-2, que promete conversas de voz mais naturais, rápidas e inteligentes.
A novidade não fica por aí. A empresa apresentou também um modelo de tradução em tempo real com suporte para mais de 70 línguas de entrada e um novo sistema de transcrição em streaming baseado no Whisper, ambos com preços bastante agressivos.
GPT-Realtime-2 é a grande novidade da OpenAI
O novo GPT-Realtime-2 foi pensado para aplicações de voz em directo, como assistentes virtuais, apoio ao cliente, marcações automáticas ou plataformas empresariais.
Segundo a OpenAI, este modelo traz capacidades de raciocínio comparáveis à classe GPT-5, mas integradas directamente no fluxo de áudio. Na prática, isto significa que deixa de ser necessário juntar várias peças separadas para ouvir, compreender, responder e falar.
Até aqui, muitas empresas construíam sistemas de voz com diferentes ferramentas para transcrição, geração de voz, raciocínio e gestão da conversa. A proposta da OpenAI é simplificar esse processo com um modelo mais integrado.
O que muda nas conversas por voz
Há várias melhorias que podem fazer diferença no uso real.
- Respostas intermédias: o assistente pode dizer algo como “deixe-me verificar” enquanto consulta ferramentas externas.
- Chamadas paralelas: consegue executar vários pedidos ao mesmo tempo e explicar ao utilizador o que está a acontecer.
- Recuperação de falhas: se algo correr mal, o sistema tenta responder em vez de simplesmente ficar em silêncio.
- Ajuste de tom: a voz pode soar mais calma em suporte técnico ou mais positiva em confirmações.
Para o utilizador, isto traduz-se em interacções menos robóticas e mais fluidas. Para as empresas, pode significar menos trabalho de integração e uma experiência mais consistente.
Mais contexto e mais controlo
Outro ponto importante é o salto na janela de contexto, que passa de 32K para 128K. Em sessões longas, isso permite ao sistema manter mais informação activa sem perder o fio da conversa.
A OpenAI também passou a oferecer níveis ajustáveis de esforço de raciocínio, desde o modo mínimo até xhigh. Isto dá aos programadores mais margem para equilibrar velocidade e qualidade, consoante o caso de uso.
Os números que a OpenAI destaca
Nos testes divulgados pela empresa, o GPT-Realtime-2 superou o modelo anterior em benchmarks de raciocínio áudio. Em cenários mais exigentes, os ganhos chegaram a 15,2% no Big Bench Audio e 13,8% no Audio MultiChallenge.
Em testes com clientes, a Zillow reportou uma subida de 69% para 95% na taxa de sucesso de chamadas em cenários particularmente difíceis.
OpenAI lança também tradução em tempo real
Além do modelo principal, a empresa revelou o GPT-Realtime-Translate, focado em tradução ao vivo. Este sistema aceita mais de 70 línguas de entrada e suporta 13 línguas de saída.
Para empresas com equipas globais, apoio internacional ou serviços multilíngues, esta pode ser uma das novidades mais relevantes. A promessa é combinar baixa latência com maior cobertura linguística, algo que nem sempre acontece nas soluções actuais.
Há ainda dados iniciais de desempenho. A BolnaAI, que trabalha com línguas indianas, refere uma redução de 12,5% na taxa de erro em hindi, tâmil e telugu.
Novo Whisper em streaming quer baixar custos
A terceira novidade é o GPT-Realtime-Whisper, uma versão de transcrição em streaming criada para baixa latência. O objectivo é claro: transformar voz em texto quase em tempo real e a um preço mais competitivo.
Este lançamento coloca pressão sobre empresas que fornecem infra-estrutura de transcrição e voz, como a Deepgram ou a ElevenLabs, numa altura em que o mercado da IA de voz está a acelerar.
Os preços podem mudar o jogo
É aqui que a ofensiva da OpenAI ganha ainda mais peso. O GPT-Realtime-2 custa 32 dólares por milhão de tokens de áudio de entrada e 64 dólares por milhão de tokens de áudio de saída.
Já o GPT-Realtime-Translate surge a 0,034 dólares por minuto, enquanto o GPT-Realtime-Whisper fica nos 0,017 dólares por minuto.
Na prática, a OpenAI está a tentar tornar mais difícil justificar soluções fragmentadas e mais caras. Para quem compra tecnologia de voz, a comparação passa a ser inevitável.
Porque é que isto importa
A IA de voz está a deixar de ser apenas uma demonstração impressionante e começa a entrar em fluxos reais de trabalho. Assistentes de atendimento, tradução instantânea, apoio técnico e automatização por voz são algumas das áreas onde estas novidades podem ter efeito directo.
Se os preços se confirmarem competitivos em produção, a OpenAI pode acelerar a adopção de agentes de voz mais completos. Ao mesmo tempo, aumenta a pressão sobre empresas especializadas que até agora dominavam partes específicas desta cadeia.
Ainda assim, há trabalho que continua fora do modelo: regras de segurança, conformidade, análise, supervisão humana e integração com ferramentas internas. Ou seja, a tecnologia ficou mais acessível, mas não elimina a complexidade de pôr um agente de voz a funcionar em ambiente real.
O mercado da voz entra numa nova fase
O anúncio surge num momento em que a corrida à IA de voz está mais intensa. A grande questão agora já não é apenas quem tem a melhor demo, mas quem consegue entregar melhores resultados em produção, com custos controlados.
Com o GPT-Realtime-2, a OpenAI quer claramente liderar essa fase. E se os primeiros números se confirmarem no terreno, o sector pode mesmo estar prestes a mudar.





Sem Comentários! Seja o Primeiro.