Laut der Ankündigung von OpenAI vom 6. Mai hat das Unternehmen eine Partnerschaft mit AMD, Broadcom, Intel, Microsoft und NVIDIA geschlossen, um Multipath Reliable Connection (MRC) zu starten – ein offenes Netzwerkprotokoll für die GPU-Verbindung in groß angelegten KI-Trainings-Clusters. Das Protokoll teilt einzelne Datenübertragungen auf Hunderte von Pfaden auf, um die Kernüberlastung zu verringern, und ermöglicht einen Umgehungsmechanismus auf Mikrosekunden-Ebene bei Verbindungs- und Switch-Ausfällen.
OpenAI hat MRC bereits in seinem Stargate-Supercomputer (gebaut mit OCI) und im Fairwater-Supercomputer von Microsoft eingesetzt. Dadurch können über 100.000 GPUs mit nur zwei Switch-Ebenen verbunden werden, während der Stromverbrauch und die Hardwareanforderungen sinken. Die MRC-Spezifikation wurde über das Open Compute Project an die Branche veröffentlicht.