На территории базы Кёртленд (Kirtland Air Force Base) в пустынном высокогорье Нью-Мексико в одном из ничем не примечательных зданий работают жидкостно-охлаждаемые суперкомпьютеры. Их шум и гул не похожи на привычную «компьютерную индустрию» — это скорее индустриальный фон для задач, от которых зависит безопасность государства. Машины просчитывают сценарии, связанные с гиперзвуковыми ядерными боезарядами и моделируют поведение взрыва вблизи другого — то есть такие процессы, которые нельзя изучать в реальности из‑за рисков и ограничений.
Подобные вычисления — не про демонстрацию возможностей технологий, а про точность. Системы должны уметь работать с числами разного масштаба без потери корректности, иначе результаты симуляций могут оказаться недостаточно надежными для принятия решений.
Почему «обычные» чипы перестали быть гарантией
Более десяти лет основной вычислительной базой для таких секретных и ресурсоемких проектов служили продукты крупных полупроводниковых компаний — например, Nvidia и Advanced Micro Devices (AMD). Однако ситуация меняется: лидеры отрасли все активнее переориентируют разработки на рынок искусственного интеллекта, а параллельно на фоне общего дефицита поставок растет неопределенность с доступностью нужных компонентов.
В результате управленцы Sandia National Laboratories, которая эксплуатирует вычислительные системы на Кёртленде, все чаще вынуждены думать не только о производительности, но и о том, где и как обеспечить стабильные поставки. Sandia — одно из трех американских учреждений, ответственных за разработку и поддержание национального ядерного арсенала.
«Сейчас давление ощущается и на стороне вычислений, и со стороны цепочки поставок», — пояснил Стив Монк (Steve Monk), руководитель команды высокопроизводительных вычислений Sandia. По его словам, перспективное планирование становится особенно напряженным именно из‑за способности системы «доставлять» вычислительные ресурсы под требования миссии.
Что именно ищут в новых процессорах
Ключевой технический вопрос связан с тем, что в инженерной среде называют double-precision floating point computation — вычислениями с двойной точностью. Это означает умение корректно обрабатывать одновременно очень большие и очень маленькие числа, сохраняя точность и уменьшая ошибки округления. Если объяснять проще: при моделировании сложных физических процессов погрешности могут накапливаться, а значит, качество вычислений напрямую влияет на достоверность симуляций.
Ранее Nvidia и AMD десятилетиями конкурировали за лидерство в ускорении такого типа расчетов и получали контракты, в том числе для университетов и государственных лабораторий. Но переход отрасли к ИИ меняет акценты: в задачах машинного обучения требования к double-precision могут быть иными, поэтому оптимизация под ИИ не всегда автоматически означает лучшие показатели в классическом научном моделировании.
Отдельная обеспокоенность связана с тем, что у будущих решений Nvidia для научных применений — чипов Rubin — в некоторых оценках double-precision производительность снизилась. Эти изменения тревожат специалистов высокопроизводительных вычислений; соответствующую оценку приводил Иэн Каттресс (Ian Cutресс), главный аналитик консультационной компании More Than Moore.
В Nvidia подчеркивают, что не рассматривают научные вычисления как второстепенную задачу. Даниэль Эрнст (Daniel Ernst), старший директор по продуктам суперкомпьютеров в Nvidia, заявил, что компания сохраняет курс на научный сегмент и намерена создавать сбалансированные чипы, способные выполнять реальные прикладные научные сценарии параллельно с ИИ-нагрузками.
Незапланированное последствие гонки за ИИ
Внутренняя дилемма Sandia отражает более широкий тренд: рынок чипов, который раньше в значительной степени контролировали крупные игроки, постепенно становится доступнее для небольших компаний. Показательный пример — NextSilicon, израильский стартап, чьи разработки проходят тестирование в рамках программы Sandia.
Эта история также показывает роль Sandia как «инкубатора технологий». Лаборатория не только использует вычислительные системы, но и помогает формировать направления развития: например, Sandia активно сотрудничала с Nvidia по мере роста последней в сегменте суперкомпьютеров. Сейчас продолжается работа и по новым технологиям памяти.
При этом один из страхов Sandia — зависимость от решений, которые крупные компании оптимизируют под свои приоритеты. Поэтому лаборатория тестирует продукты новых участников рынка, включая компании, применяющие отличные от GPU и CPU подходы к вычислениям.
Проверка чипов и шанс на «осеннее» решение
В понедельник Sandia, NextSilicon и Penguin Solutions — фирма, которая помогла интегрировать чипы NextSilicon в суперкомпьютер — сообщили, что системы прошли важную техническую веху. Речь идет о серии общих тестов суперкомпьютерной производительности, которые определяют, можно ли допускать чипы к использованию в государственных системах.
Дальше — следующий этап. Предполагается решение в течение осени: будут ли эти чипы допущены к тестам на более сложных задачах, максимально приближенных к тем, с которыми им в перспективе придется работать в области ядерной безопасности.
Технические особенности NextSilicon включают возможность выполнять double-precision вычисления, а также конструктивную идею самоперепрограммирования «на лету» — то есть адаптации режима работы для более эффективного выполнения конкретных задач. Дополнительно заявлено, что чипы экономят электроэнергию за счет архитектуры, основанной на потоке данных (data flow architecture): в таком подходе меньше времени уходит на постоянную пересылку информации между подсистемами и памятью вычислительной системы.
Как эксперименты лаборатории становятся стандартом
Sandia известна тем, что ее сотрудничество с индустрией часто приводит к распространению технологий. В качестве примера приводят жидкостное охлаждение чипов: когда лаборатория начала продвигать эту идею среди Intel, AMD и Nvidia более десяти лет назад, это казалось экзотикой. Сегодня же жидкостные системы охлаждения для вычислителей стали более привычным элементом инфраструктуры.
Смысл таких проектов — не только в одном конкретном продукте, но и в расширении набора технологических опций. Джеймс Ларос (James Laros), старший ученый Sandia, курирующий программу по тестированию новых вычислительных архитектур, отметил, что работа с небольшими игроками вроде NextSilicon направлена на то, чтобы лаборатория всегда могла закупить необходимые чипы, даже если крупные производители сместят фокус.
«Нам нужно сохранять доступные варианты для выполнения нашей миссии, потому что миссия не является предметом выбора», — подчеркнул Ларос.
Таким образом, история NextSilicon — это не только про конкуренцию на рынке чипов, но и про устойчивость государственных вычислений: лаборатории важно иметь не один «единственный» источник вычислительной мощности, а портфель решений, способных пройти проверку точности и надежности именно в тех задачах, где ошибка обходится слишком дорого.
