OpenAI объявила о запуске нового открытого сетевого стандарта, который нацелен на одну из ключевых проблем больших ИИ-систем — «узкие места» в коммуникациях между тысячами вычислительных узлов. Проект получил название Multipath Reliable Connection (MRC) и, как говорится в сообщении, уже поддержан партнёрами компании: AMD, Broadcom, Intel, Microsoft и Nvidia. Презентация прошла во вторник в рамках Open Compute Project — сообщества, которое продвигает открытые подходы к построению дата-центров и инфраструктуры.
Что такое MRC и зачем он нужен в кластерах ИИ
Главная задача MRC — улучшить обмен данными в масштабных тренировочных кластерах, где графические процессоры и серверы обмениваются огромными объёмами информации почти непрерывно. Когда сеть работает как «единая магистраль», перегрузка отдельных участков способна замедлять обучение модели. В результате даже мощные ускорители могут простаивать в ожидании данных.
Чтобы снизить такие задержки, MRC расширяет технологию RDMA over Converged Ethernet. RDMA (Remote Direct Memory Access) — это способ удалённого доступа к памяти без традиционных «копирований» данных через промежуточные буферы и без лишней нагрузки на процессор. В обычных сетевых сценариях данные проходят более длинный путь; RDMA позволяет передавать их напрямую между устройствами, что делает обмен быстрее и предсказуемее.
Converged Ethernet — это подход, при котором Ethernet используется как универсальная транспортная среда, способная нести трафик, ранее требовавший специализированных решений. Упоминаемый стандарт принадлежит InfiniBand Trade Association — организации, которая развивает спецификации для высокопроизводительных сетей.
Как работает «мультипуть»: разбиение сети на параллельные дорожки
Ключевая идея Multipath Reliable Connection — использование мультипутевой передачи. Внутри сети интерфейсы разбиваются на множество более мелких звеньев, которые формируют параллельные «коридоры» для пакетов. Благодаря этому одна передача может распределяться по сотням путей одновременно.
Иными словами, сеть перестаёт быть зависимой от одного маршрута или одного участка. Если какой-то сегмент начинает работать хуже, трафик можно перенаправить по другим траекториям, не останавливая общий поток коммуникаций между узлами.
Роль IPv6 Segment Routing: путь задаётся заранее
Для управления маршрутизацией MRC применяет IPv6 Segment Routing. Это механизм, при котором отправитель указывает, через какие «сегменты» (участки топологии) должен пройти пакет. Такой подход снижает зависимость от постоянно изменяющихся динамических протоколов маршрутизации.
Кроме того, протокол предусматривает обнаружение проблем в сети и обход отказов. В заявленном формате MRC перенаправляет трафик вокруг неисправностей в микросекундном диапазоне. Для сравнения, традиционные сетевые фабрики способны реагировать на инциденты за секунды или за десятки секунд — то есть разница может быть принципиальной для тренировок, где задержки накапливаются и влияют на устойчивость процесса.
Где используется MRC у OpenAI и в каких системах
Согласно описанию, MRC развёрнут на крупнейших суперкомпьютерах OpenAI на базе Nvidia GB200, применяемых для обучения «передовых» моделей. В числе конкретных площадок упоминается инфраструктура OpenAI на Oracle Cloud Infrastructure в Абилене, штат Техас, а также суперкомпьютеры Microsoft Fairwater.
Отдельно подчёркивается, что MRC уже применялся при обучении нескольких моделей OpenAI. При этом в вычислительной базе задействуются аппаратные компоненты Nvidia и Broadcom, что подчёркивает межплатформенный характер решения.
Связь с масштабом: тысячи узлов и требования к сети
Тренировки современных языковых моделей требуют не только вычислительной мощности, но и постоянной пропускной способности между ускорителями. Любая пауза в обмене градиентами или другими данными обучения может приводить к деградации эффективности и росту времени до результата.
В контексте масштаба OpenAI сообщает, что более 900 миллионов человек используют ChatGPT каждую неделю. Это число отражает устойчивый спрос на модели и, соответственно, необходимость регулярно обновлять и улучшать инфраструктуру, включая сетевую часть.
Операционные детали: перезапуск оборудования во время обучения
В ходе обучения недавней «frontier» модели — то есть модели, относящейся к классу самых продвинутых на текущем этапе — компания провела техническое вмешательство. Сообщается, что были перезагружены четыре коммутатора tier-1 без предварительной координации с командами, которые запускали задачи обучения в кластере.
Термин «tier-1» в дата-центрах обычно означает ключевую категорию оборудования верхнего уровня, на которое опирается значительная часть трафика. Коммутаторы такого класса часто играют роль магистральных узлов, и их перезапуск обычно требует аккуратного планирования — именно поэтому данный эпизод важен как иллюстрация того, что инфраструктура должна уметь переживать сбои и быстро восстанавливаться.
Что означает появление MRC для отрасли
Если MRC действительно обеспечивает надёжную мультипутевую передачу с микросекундной реакцией на проблемы, это может стать заметным шагом в развитии сетей для ИИ. Для индустрии это означает более предсказуемое обучение на больших кластерах, снижение потерь производительности из-за сетевых задержек и улучшенную устойчивость при инцидентах в инфраструктуре.
В итоге новый стандарт нацелен не на «абстрактное ускорение», а на практическую проблему: как удерживать коммуникации между GPU и серверами в темпе, который требуется для современных масштабов обучения.
