Nenhum post encontrado.

Procurar
Digite para fazer uma pesquisa ou pressione ESC para fechar
IA

Como a OpenAI usa outras empresas para treinar IA? estratégia ousada e inovadora!

A OpenAI anunciou uma parceria sem precedentes com AMD, NVIDIA, Intel, Microsoft e Broadcom para revolucionar a infraestrutura de rede em supercomputadores. O objetivo central é o desenvolvimento e a implementação do protocolo MRC (Multipath Reliable Connection), projetado para melhorar o desempenho e a resiliência de grandes clusters de GPUs durante o treinamento de modelos de fronteira.

Fonte: WCCFtech

Disponibilizado através do OCP (Open Compute Project), o MRC visa resolver um dos maiores gargalos da computação atual: a interrupção de processos de treinamento devido a falhas ou congestionamentos na rede. Em sistemas de larga escala, um único atraso na transferência de dados pode deixar milhares de GPUs ociosas, gerando prejuízos massivos em tempo e energia.

Como funciona o protocolo MRC

O MRC altera a forma como as interfaces de rede de alta velocidade, como as de 800 Gb/s, são tratadas. Em vez de utilizar um único link massivo, o protocolo divide a conexão em múltiplos caminhos menores e paralelos.

CaracterísticaRedes Convencionais (800 Gb/s)Padrão MRC (Multi-plano)
Estrutura de LinkCanal único de 800 Gb/s8 links paralelos de 100 Gb/s
Camadas de Switches3 a 4 camadas para grandes clustersApenas 2 camadas de switches
Capacidade de EscalaLimitada pela complexidade físicaInterconecta até 131.000 GPUs
ResiliênciaFalhas podem interromper o treinoContorno de falhas em microssegundos
Protocolo BaseEthernet padrãoRDMA sobre RoCE
Fonte: WCCFtech

Implementação e o supercomputador Stargate

A OpenAI já está utilizando o MRC em sua infraestrutura atual, que abriga as novas GPUs NVIDIA Blackwell (GB200). O protocolo é peça fundamental para o projeto Stargate, um supercomputador construído em parceria com a Oracle Cloud Infrastructure no Texas.

Este projeto ambicioso visa atingir uma capacidade computacional de 10 GW até 2029, tendo já implementado mais de 3 GW nos últimos meses. A tecnologia permite que o plano de controle da rede seja mais simples e eficiente, garantindo que o fluxo de dados entre CPUs e GPUs ocorra com acesso direto à memória remota acelerado por hardware.

Fonte: WCCFtech

Impacto na indústria de IA

Ao abrir o padrão MRC para toda a indústria, a OpenAI e seus parceiros pretendem padronizar a forma como os data centers de próxima geração são construídos. A colaboração com empresas como a Broadcom e a Intel garante que o protocolo seja compatível com uma ampla gama de hardwares, facilitando a expansão da IA agêntica e de modelos de linguagem cada vez mais complexos.

Com a eliminação de camadas desnecessárias de switches e a otimização da movimentação de dados, o setor caminha para uma era de treinamento mais sustentável e veloz, consolidando o MRC como o novo padrão ouro para a infraestrutura de supercomputação global.

Fonte da matéria: WCCFtech

Siga o TecLab em todas as mídias: linktr.ee/rbuass

Galindowie • 7 de maio de 2026 às 16:05 GMT-3

0 comentários





error: Conteúdo protegido!
Lendo