США расширяют доступ к ИИ-моделям: стресс-тесты для Google, xAI и Microsoft

Администрация президента США Дональда Трампа расширила программу, в рамках которой американские государственные ученые получают доступ к еще не выпущенным моделям искусственного интеллекта. Обновление позволит исследователям провести оценку рисков — в фокусе будут разработки компаний, включая Google DeepMind, xAI и Microsoft.

Ранее к аналогичной проверке в добровольном порядке уже подключались OpenAI и Anthropic: их представители сообщали, что работают с командой U.S. Center for AI Standards and Innovation (CAISI) — структурой, объединяющей специалистов из госсектора, — чтобы выявлять уязвимости в моделях до их публичного релиза.

Что именно США пытаются предотвратить

В центре внимания американских исследователей — так называемые «демонстрируемые риски» (demonstrable risks). Это означает угрозы, которые можно не просто предположить теоретически, а показать на практике: например, продемонстрировать, что конкретные сценарии действительно способны привести к вреду.

Согласно описанию CAISI, приоритетные задачи включают:

снижение вероятности использования продвинутых моделей ИИ для кибератак на объекты американской инфраструктуры;
ограничение возможностей для противников применять ИИ при разработке химического или биологического оружия;
защита от попыток вмешательства в данные, на которых обучаются модели ИИ в США (то есть «коррупции» датасетов, что может исказить поведение системы).

Какие модели и данные компании предоставляют на проверку

Расширенная схема предполагает передачу исследовательской группе доступа к моделям и материалам, чтобы ученые могли оценивать их устойчивость. Конкретные форматы сотрудничества различаются.

OpenAI: тестирование GPT-5.5-Cyber

OpenAI сообщила, что в рамках работы с CAISI ее специалисты тестируют вариант модели GPT-5.5-Cyber. Об этом заявил Chris Lehane, руководитель глобальных направлений OpenAI по вопросам внешних связей, в публикации во вторник.

GPT-5.5-Cyber — это модификация последней модели компании, ориентированная на задачи оборонительной кибербезопасности, то есть на снижение рисков и противодействие атакам, а не на их автоматизацию.

Microsoft: общие датасеты и рабочие процессы

Microsoft, в свою очередь, заявила, что будет сотрудничать с учеными для формирования «совместных датасетов и рабочих процедур» (shared datasets and workflows), чтобы оценивать продвинутые модели. При этом компания не уточнила, какие именно модели попадут в проверку.

Anthropic: доступ к публичным и непубличным моделям и red-teaming

Anthropic ранее предоставила CAISI доступ как к публично доступным, так и к еще не выпущенным моделям. Такой формат позволяет исследователям искать уязвимости в процессе, который в отрасли часто называют red-teaming.

Red-teaming — это метод проверки безопасности, при котором специалисты моделируют поведение потенциальных злоумышленников, чтобы понять, как система может быть обманута или использована во вред.

В сентябре компания также сообщала, что передала CAISI подробную документацию о выявленных ранее уязвимостях и о механизмах безопасности.

Google DeepMind: «проприетарные» модели и данные

Представители Google DeepMind, AI-подразделения Alphabet, сообщили, что предоставят доступ к своим «проприетарным моделям» (proprietary models) и данным. Иными словами, речь идет о собственных наработках, которые не являются полностью открытыми для внешнего доступа.

xAI: ответ на запрос не был получен

Компания xAI на момент публикации не предоставила оперативный комментарий на запрос.

Что уже удалось выяснить в ходе предыдущих проверок

CAISI и компании, участвующие в проверках, к настоящему моменту уже сообщали о результатах тестов — прежде всего о том, какие приемы могут обходить встроенные ограничения моделей.

Уроки Anthropic: обход через имитацию процесса и подстановки

Работа Anthropic с CAISI показала, что некоторые техники могут снижать эффективность защитных механизмов. В частности, речь шла о попытках:

заставить модель «поверить», что проверка человеком уже выполнена;
использовать подстановки символов, чтобы обойти правила безопасности.

Компания заявила, что после выявления подобных уязвимостей устранила их (patched).

Сценарии OpenAI: риск для ChatGPT Agent

В сентябре OpenAI сообщала, что совместные проверки с CAISI выявили уязвимости в ChatGPT Agent. Потенциальная проблема могла позволить «серьезным» (sophisticated) злоумышленникам обойти меры кибербезопасности компании.

В описании сценария указывалось, что злоумышленник мог получить возможность дистанционно управлять компьютерными системами, к которым агент имел доступ в рамках конкретной сессии, а также успешно выдавать себя за пользователя на других сайтах, в которые тот был авторизован.

Почему именно сейчас: добровольные проверки и расширение госсостава

В 2023 году несколько крупных игроков — Meta, Amazon и Inflection AI — договорились сдать модели на проверку независимым экспертам по рискам биобезопасности и кибербезопасности. Под «независимыми экспертами» обычно понимаются внешние специалисты, не вовлеченные напрямую в разработку модели и способные оценивать поведение системы с позиции безопасности.

Отдельно отмечается, что государственные ученые, работавшие над рекомендациями и практиками, в период администрации Джо Байдена также публиковали добровольные руководства. Их цель — снизить вероятность того, что модели ИИ могут:

раскрывать конфиденциальную медицинскую информацию;
выдавать неверные ответы (ошибки, способные ввести пользователя в заблуждение).

Следующий шаг: рекомендации для критической инфраструктуры

Теперь специалисты CAISI, как следует из информации на их сайте, готовят новые руководства для организаций, обслуживающих критическую инфраструктуру. В контексте США к таким секторам часто относят, в частности, связь и службы экстренного реагирования (communications и emergency services).

Логика этого этапа проста: когда ИИ внедряется в системы, от которых зависит устойчивость государства и общества, оценка рисков должна переходить от проверки «моделей в вакууме» к испытаниям в условиях, приближенных к реальному использованию.

США расширяют доступ к ИИ-моделям: стресс-тесты для Google, xAI и Microsoft

Устойчивость экономики США после сезона отчетов: как долго продержится?

S&P повысило рейтинг Legence Holdings до BB- из-за снижения доли спонсора

США ускорят внедрение ИИ в нацбезопасность при строгих ограничениях

США расширяют доступ к ИИ-моделям: стресс-тесты для Google, xAI и Microsoft

Что именно США пытаются предотвратить

Какие модели и данные компании предоставляют на проверку

OpenAI: тестирование GPT-5.5-Cyber

Microsoft: общие датасеты и рабочие процессы

Anthropic: доступ к публичным и непубличным моделям и red-teaming

Google DeepMind: «проприетарные» модели и данные

xAI: ответ на запрос не был получен

Что уже удалось выяснить в ходе предыдущих проверок

Уроки Anthropic: обход через имитацию процесса и подстановки

Сценарии OpenAI: риск для ChatGPT Agent

Почему именно сейчас: добровольные проверки и расширение госсостава

Следующий шаг: рекомендации для критической инфраструктуры

Related Posts

Устойчивость экономики США после сезона отчетов: как долго продержится?

S&P повысило рейтинг Legence Holdings до BB- из-за снижения доли спонсора

США ускорят внедрение ИИ в нацбезопасность при строгих ограничениях