A OpenAI anunciou uma parceria sem precedentes com AMD, NVIDIA, Intel, Microsoft e Broadcom para revolucionar a infraestrutura de rede em supercomputadores. O objetivo central é o desenvolvimento e a implementação do protocolo MRC (Multipath Reliable Connection), projetado para melhorar o desempenho e a resiliência de grandes clusters de GPUs durante o treinamento de modelos de fronteira.

Disponibilizado através do OCP (Open Compute Project), o MRC visa resolver um dos maiores gargalos da computação atual: a interrupção de processos de treinamento devido a falhas ou congestionamentos na rede. Em sistemas de larga escala, um único atraso na transferência de dados pode deixar milhares de GPUs ociosas, gerando prejuízos massivos em tempo e energia.
Como funciona o protocolo MRC
O MRC altera a forma como as interfaces de rede de alta velocidade, como as de 800 Gb/s, são tratadas. Em vez de utilizar um único link massivo, o protocolo divide a conexão em múltiplos caminhos menores e paralelos.
| Característica | Redes Convencionais (800 Gb/s) | Padrão MRC (Multi-plano) |
| Estrutura de Link | Canal único de 800 Gb/s | 8 links paralelos de 100 Gb/s |
| Camadas de Switches | 3 a 4 camadas para grandes clusters | Apenas 2 camadas de switches |
| Capacidade de Escala | Limitada pela complexidade física | Interconecta até 131.000 GPUs |
| Resiliência | Falhas podem interromper o treino | Contorno de falhas em microssegundos |
| Protocolo Base | Ethernet padrão | RDMA sobre RoCE |

Implementação e o supercomputador Stargate
A OpenAI já está utilizando o MRC em sua infraestrutura atual, que abriga as novas GPUs NVIDIA Blackwell (GB200). O protocolo é peça fundamental para o projeto Stargate, um supercomputador construído em parceria com a Oracle Cloud Infrastructure no Texas.
Este projeto ambicioso visa atingir uma capacidade computacional de 10 GW até 2029, tendo já implementado mais de 3 GW nos últimos meses. A tecnologia permite que o plano de controle da rede seja mais simples e eficiente, garantindo que o fluxo de dados entre CPUs e GPUs ocorra com acesso direto à memória remota acelerado por hardware.

Impacto na indústria de IA
Ao abrir o padrão MRC para toda a indústria, a OpenAI e seus parceiros pretendem padronizar a forma como os data centers de próxima geração são construídos. A colaboração com empresas como a Broadcom e a Intel garante que o protocolo seja compatível com uma ampla gama de hardwares, facilitando a expansão da IA agêntica e de modelos de linguagem cada vez mais complexos.
Com a eliminação de camadas desnecessárias de switches e a otimização da movimentação de dados, o setor caminha para uma era de treinamento mais sustentável e veloz, consolidando o MRC como o novo padrão ouro para a infraestrutura de supercomputação global.
Fonte da matéria: WCCFtech
Siga o TecLab em todas as mídias: linktr.ee/rbuass
Galindowie • 7 de maio de 2026 às 16:05 GMT-3
0 comentários