OpenAI pondera novos chips de IA após dúvidas sobre NVIDIA
O buzz na indústria de IA não abranda, e a mais recente onda vem de um sítio esperado: a fronteira entre software de ponta e o hardware que o sustenta. Ao que tudo indica, a OpenAI tem vindo a reavaliar o desempenho de alguns aceleradores usados na fase de inferência — o momento em que os modelos deixam de aprender e passam a responder. É aqui que surgem os gargalos mais visíveis para utilizadores e clientes: latência na geração de código, tempos de espera em conversas complexas, e custos operacionais que escalam de forma pouco simpática quando se fala de milhões de pedidos por dia.
Neste artigo encontras:
- Porque é que a inferência se tornou o novo campo de batalha
- OpenAI afina a bússola: do treino para a resposta em tempo real
- Alternativas na mesa: de chips especializados a arquiteturas com memória próxima
- A relação com a NVIDIA: pragmatismo, escala e custo por desempenho
- Dinâmica de mercado e investimentos: sinais para ler nas entrelinhas
- O que esperar nos próximos 12–24 meses
- FAQ
Se o treino de modelos gigantes foi o pódio das GPUs nos últimos anos, a corrida que agora interessa às equipas de produto e às equipas financeiras chama-se “tempo de resposta com custo previsível”. E isso está a redesenhar o mapa de interesses de quem constrói a próxima geração de IA generativa.
Porque é que a inferência se tornou o novo campo de batalha
Treinar um modelo de grande escala é caro, mas ocorre em rajadas: planifica-se, reserva-se capacidade e otimiza-se pipelines. A inferência, por sua vez, nunca dorme. É sensível a picos, a geografias e a contratos de nível de serviço. Cada milissegundo conta e cada watt também. À medida que os modelos se tornam mais “pensativos” — com cadeias de raciocínio mais longas, ferramentas externas e contexto maior — as arquiteturas que brilham no treino nem sempre brilham na resposta.
Daí o interesse crescente por designs que aproximam memória e compute, reduzindo idas e voltas a DRAM ou rede. A palavra-chave é previsibilidade: throughput consistente, latência baixa e custo por token controlável.
OpenAI afina a bússola: do treino para a resposta em tempo real
O que muda para uma empresa como a OpenAI? A prioridade deixa de ser “como escalar o próximo treino” para “como servir o próximo milhar de milhões de tokens”. Isso implica olhar para além do ecossistema dominante. Explorar opções não significa romper relações; significa pressionar o estado da arte onde dói mais: a inferência no mundo real, com workloads de código, agentes e prompts longos.
Esta reorientação acontece sem virar costas ao que já funciona. GPUs de topo continuam a liderar em versatilidade e maturidade de software, mas a fasquia para permanecer no centro do data center está a subir. Se um fornecedor consegue entregar 10-20% menos latência por pedido em cenários críticos, o impacto anual em custos e satisfação do utilizador é brutal.
Alternativas na mesa: de chips especializados a arquiteturas com memória próxima
Não faltam candidatos a morder esta fatia. Startups com arquiteturas orientadas a memória e fluxo determinístico prometem ganhos tangíveis em raciocínio e geração de código. Soluções como wafers monolíticos e processadores com SRAM abundante procuram eliminar gargalos na movimentação de dados, o calcanhar de Aquiles de muitos pipelines de inferência.
O desafio aqui não é apenas o hardware. É a cadeia completa: compiladores, SDKs, integração com servidores de modelos, quantização estável e observabilidade. Qualquer alternativa que queira ganhar terreno precisa de provar três coisas rapidamente:
- Compatibilidade com stacks populares (vLLM, TensorRT-LLM, etc.)
- Ganhos de latência fim‑a‑fim, não só em benchmarks sintéticos
- Custo total de propriedade favorável, incluindo energia, rede e manutenção
É por isso que negociações, alianças e licenciamentos se tornaram tão sensíveis. Uma parceria que muda de mãos pode redefinir quem consegue acesso a determinada tecnologia e em que condições.
A relação com a NVIDIA: pragmatismo, escala e custo por desempenho
Importa separar ruído de sinal. A NVIDIA continua no centro da infraestrutura de IA moderna por um motivo simples: entregou performance por dólar e um ecossistema de software sem rival ao longo de uma década. Para empresas com tráfego global, a disponibilidade, as ferramentas de gestão e a previsibilidade de fornecimento pesam tanto como FLOPs brutos.
Ao mesmo tempo, o mercado não é estático. A pressão competitiva na inferência é saudável e, francamente, necessária. Se os grandes compradores de computação colocarem metas claras — menos latência, mais tokens por segundo, operado com menos energia — os fornecedores estabelecidos vão acelerar a inovação em arquiteturas e pilhas otimizadas para servir, não apenas treinar.
Dinâmica de mercado e investimentos: sinais para ler nas entrelinhas
Quando um líder de mercado sonda alternativas, os investidores tomam nota. Pequenas inflexões de confiança podem traduzir-se em volatilidade de curto prazo nas ações de quem domina o segmento. Em paralelo, conversas sobre investimentos estratégicos entre fabricantes de chips e empresas de IA são termómetros úteis: não ditam o rumo sozinhos, mas indicam prioridade e compromisso de longo prazo.
Para o ecossistema, o recado é claro: diversificação de hardware deixou de ser plano B. É uma via para reduzir risco operacional, otimizar custos e, em muitos casos, desbloquear funcionalidades que exigem previsibilidade milimétrica.
O que esperar nos próximos 12–24 meses
Há três linhas de evolução a acompanhar:
- Consolidação de um “stack de inferência” com perfis de carga distintos: chat multimodal, geração de código, agentes com ferramentas externas e pesquisa aumentada por contexto.
- Crescimento de instâncias especializadas em clouds públicas, com SLAs explícitos para latência e “tokens por segundo”, e mais regiões com computação na periferia (edge) para cortar milissegundos.
- Aceleração de técnicas como quantização agressiva, KV‑cache distribuído e partilha de contexto entre pedidos, explorando melhor o silício já existente.
Se as alternativas entregarem ganhos reais em workloads críticos, veremos uma arquitetura híbrida tornar‑se norma: GPUs generalistas para flexibilidade e treino, aceleradores de baixa latência para servir raciocínio e código a escala planetária. E isso, por si só, pode reescrever quem lidera a próxima fase da IA aplicada.
FAQ
A OpenAI vai abandonar as GPUs da NVIDIA?
Não. O cenário mais provável é um portefólio híbrido, onde as GPUs continuam centrais e coexistem com aceleradores otimizados para inferência.
Por que motivo a inferência é tão sensível a latência?
Porque impacta diretamente a experiência do utilizador e os custos. Milissegundos acumulam-se em cadeias de raciocínio longas e em picos de tráfego.
Que tipo de workloads mais beneficiam de hardware alternativo?
Geração de código, raciocínio estruturado e tarefas com contextos muito extensos, onde a movimentação de dados é o gargalo.
O software está preparado para múltiplas arquiteturas?
Está a evoluir nessa direção. Compiladores e servidores de modelos estão a ganhar backends mais portáveis, mas a maturidade ainda varia.
Isto pode baixar preços para clientes finais?
Com mais concorrência e melhor eficiência por token, a tendência natural é de redução de custo por utilização, especialmente em volumes altos.
O que devem fazer as empresas que consomem IA hoje?
Medir, testar e comparar. Benchmarks fim‑a‑fim no seu próprio tráfego valem mais do que resultados sintéticos. E manter uma estratégia multi‑fornecedor reduz risco.
Fonte: Reuters





Sem Comentários! Seja o Primeiro.