A AMD anunciou, em colaboração com a OpenAI, Broadcom, Intel e Microsoft, o desenvolvimento do protocolo MRC (Multi-Path Reliable Connection), uma nova tecnologia de comunicação de dados projetada para clusters de inteligência artificial de larga escala. A iniciativa reúne algumas das maiores empresas do setor de tecnologia com o objetivo de tornar mais eficientes e resilientes as redes utilizadas no treinamento de modelos de IA cada vez mais complexos.

O protocolo MRC foi concebido para enfrentar desafios críticos da computação distribuída em larga escala. Entre as funcionalidades principais estão o melhor gerenciamento de congestionamento de rede, a aceleração na recuperação de falhas e a manutenção da sincronização entre GPUs em ambientes de processamento paralelo. Segundo a AMD, o MRC foi projetado para operar em infraestruturas equipadas com interfaces de rede de até 800 Gb/s, velocidade necessária para atender às demandas crescentes do treinamento de modelos de linguagem e outras aplicações de IA.

AMD, OpenAI e parceiros lançam protocolo MRC para redes de IA - Imagem complementar

A OpenAI, empresa responsável pelo ChatGPT e pelos modelos GPT, já utiliza o protocolo em seus supercomputadores. Os ambientes de operação incluem infraestruturas fornecidas em parceria com a Oracle Cloud Infrastructure, serviço de nuvem da Oracle, e com a Microsoft, que mantém uma relação de investimento e cooperação tecnológica com a OpenAI. A implementação prática do MRC nesses ambientes indica que a tecnologia já está em fase avançada de validação em condições reais de uso.

PUBLICIDADE

A disponibilização do protocolo ocorreu por meio do Open Compute Project (OCP), organização dedicada à padronização de tecnologias para data centers. A escolha pelo OCP reforça o compromisso das empresas envolvidas com a adoção de padrões abertos, permitindo que outras organizações possam implementar e contribuir com a evolução da tecnologia. Essa abordagem é especialmente relevante em um mercado em que a interoperabilidade entre diferentes fornecedores de hardware e software pode determinar a viabilidade de projetos de grande porte.

O MRC integra a estratégia mais ampla da AMD para o mercado de inteligência artificial, que inclui a arquitetura Helios. Apresentada pela fabricante como uma plataforma de infraestrutura de IA para data centers de grande porte, a arquitetura Helios combina três componentes principais da linha de produtos da empresa: as GPUs Instinct, voltadas para cargas de trabalho de IA; os processadores EPYC, que são CPUs de alto desempenho para servidores; e as soluções de rede Pensando Vulcano, projetadas para comunicação eficiente entre nós de computação.

A convergência dessas tecnologias em uma única plataforma reflete a tendência do mercado de oferecer soluções integradas para IA, em vez de componentes isolados. A AMD projeta que a plataforma Helios comece a ser utilizada em ambientes de treinamento e inferência de modelos de IA em larga escala a partir de 2026. Inferência, neste contexto, é o processo de utilizar um modelo já treinado para gerar respostas ou previsões em produção.

A participação de empresas como Broadcom e Intel no desenvolvimento do MRC sugere que o protocolo foi pensado para ser independente de fabricante específico de hardware, o que pode facilitar sua adoção em diferentes tipos de infraestrutura. A Broadcom é conhecida por suas soluções de rede e conectividade para data centers, enquanto a Intel é uma das maiores fabricantes de processadores do mundo, com atuação crescente no segmento de aceleradores de IA.

Para o ecossistema de inteligência artificial, o desenvolvimento de protocolos de rede mais eficientes representa um avanço importante. O treinamento de modelos de IA de última geração, como os modelos de linguagem de grande porte, exige a coordenação de milhares de GPUs trabalhando simultaneamente. Nesse cenário, gargalos de comunicação entre os processadores podem limitar significativamente o desempenho geral do sistema, aumentando o tempo e o custo do treinamento.

A capacidade do MRC de lidar com falhas de rede de forma mais rápida também é um fator relevante. Em clusters com milhares de dispositivos, a probabilidade de ocorrência de falhas em componentes individuais é elevada. Protocolos que permitem a recuperação rápida dessas falhas, sem comprometer a integridade do treinamento em andamento, podem reduzir desperdícios computacionais e financeiros.

A colaboração entre AMD, OpenAI, Broadcom, Intel e Microsoft para a criação do MRC demonstra como desafios de infraestrutura em IA tendem a exigir esforços conjuntos entre empresas que, em outros contextos, competem diretamente. A complexidade técnica envolvida na comunicação entre milhares de aceleradores de cálculo em tempo real ultrapassa o que uma única organização conseguiria resolver de forma isolada.

Com a disponibilização do protocolo no OCP, a expectativa é que a comunidade de desenvolvedores e engenheiros de infraestrutura possa contribuir para melhorias e adaptações do MRC a diferentes cenários de uso. A adoção de padrões abertos em infraestrutura de IA é considerada fundamental para evitar a dependência de soluções proprietárias e para acelerar o avanço do setor como um todo.