Recentemente, no simpósio Hot Chips 2024, a Microsoft revelou detalhes sobre o seu primeiro acelerador de IA personalizado, o Maia 100, projetado para cargas de trabalho de IA em larga escala na plataforma Azure.
Ao contrário dos seus concorrentes, a Microsoft optou pela tecnologia de memória HBM2E mais antiga, integrada com a intrigante capacidade de “desbloquear novas funcionalidades” através de atualizações de firmware. Esta decisão parece ser uma estratégia para equilibrar desempenho e eficiência de custos.
O acelerador Maia 100 é um SoC de tamanho retículo, construído no processo N5 da TSMC e apresenta um interposer COWOS-S. Inclui quatro dies de memória HBM2E, oferecendo 1.8TBps de largura de banda e 64GB de capacidade, adaptados para cargas de trabalho de IA de alta taxa de transferência. O chip é projetado para suportar até 700W TDP, mas é provisionado a 500W, tornando-o eficiente em termos de energia para a sua classe.
A abordagem da Microsoft com o Maia 100 enfatiza uma arquitetura verticalmente integrada, desde placas de servidor personalizadas até racks especializados e uma pilha de software projetada para melhorar as capacidades de IA. A arquitetura inclui uma unidade tensor de alta velocidade e um processador vetorial personalizado, suportando vários formatos de dados e otimizados para necessidades de machine learning.
Além disso, o Maia 100 suporta interconexões baseadas em Ethernet com até 4800Gbps de largura de banda all-gather e scatter-reduced, usando um protocolo personalizado semelhante ao RoCE para transmissão de dados confiável e segura.
Patrick Kennedy, do ServeTheHome, relatou sobre o Maia no Hot Chips, observando: “Foi realmente interessante que este é um dispositivo de 500W/700W com 64GB de HBM2E. Esperar-se-ia que não fosse tão capaz quanto um Nvidia H100, uma vez que tem menos capacidade de HBM. Ao mesmo tempo, está a usar uma boa quantidade de energia. No mundo atual, onde a energia é limitada, parece que a Microsoft deve ser capaz de tornar estes dispositivos muito menos caros do que as GPUs da Nvidia.”
O SDK do Maia simplifica a implementação, permitindo que os desenvolvedores portem os seus modelos com mudanças mínimas de código, suportando tanto os modelos de programação PyTorch quanto Triton. Isto permite que os desenvolvedores otimizem o desempenho da carga de trabalho em diferentes backends de hardware sem sacrificar a eficiência.
Fonte: Techradar