Администрация президента США Дональда Трампа расширила программу, в рамках которой американские государственные ученые получают доступ к еще не выпущенным моделям искусственного интеллекта. Обновление позволит исследователям провести оценку рисков — в фокусе будут разработки компаний, включая Google DeepMind, xAI и Microsoft.
Ранее к аналогичной проверке в добровольном порядке уже подключались OpenAI и Anthropic: их представители сообщали, что работают с командой U.S. Center for AI Standards and Innovation (CAISI) — структурой, объединяющей специалистов из госсектора, — чтобы выявлять уязвимости в моделях до их публичного релиза.
Что именно США пытаются предотвратить
В центре внимания американских исследователей — так называемые «демонстрируемые риски» (demonstrable risks). Это означает угрозы, которые можно не просто предположить теоретически, а показать на практике: например, продемонстрировать, что конкретные сценарии действительно способны привести к вреду.
Согласно описанию CAISI, приоритетные задачи включают:
- снижение вероятности использования продвинутых моделей ИИ для кибератак на объекты американской инфраструктуры;
- ограничение возможностей для противников применять ИИ при разработке химического или биологического оружия;
- защита от попыток вмешательства в данные, на которых обучаются модели ИИ в США (то есть «коррупции» датасетов, что может исказить поведение системы).
Какие модели и данные компании предоставляют на проверку
Расширенная схема предполагает передачу исследовательской группе доступа к моделям и материалам, чтобы ученые могли оценивать их устойчивость. Конкретные форматы сотрудничества различаются.
OpenAI: тестирование GPT-5.5-Cyber
OpenAI сообщила, что в рамках работы с CAISI ее специалисты тестируют вариант модели GPT-5.5-Cyber. Об этом заявил Chris Lehane, руководитель глобальных направлений OpenAI по вопросам внешних связей, в публикации во вторник.
GPT-5.5-Cyber — это модификация последней модели компании, ориентированная на задачи оборонительной кибербезопасности, то есть на снижение рисков и противодействие атакам, а не на их автоматизацию.
Microsoft: общие датасеты и рабочие процессы
Microsoft, в свою очередь, заявила, что будет сотрудничать с учеными для формирования «совместных датасетов и рабочих процедур» (shared datasets and workflows), чтобы оценивать продвинутые модели. При этом компания не уточнила, какие именно модели попадут в проверку.
Anthropic: доступ к публичным и непубличным моделям и red-teaming
Anthropic ранее предоставила CAISI доступ как к публично доступным, так и к еще не выпущенным моделям. Такой формат позволяет исследователям искать уязвимости в процессе, который в отрасли часто называют red-teaming.
Red-teaming — это метод проверки безопасности, при котором специалисты моделируют поведение потенциальных злоумышленников, чтобы понять, как система может быть обманута или использована во вред.
В сентябре компания также сообщала, что передала CAISI подробную документацию о выявленных ранее уязвимостях и о механизмах безопасности.
Google DeepMind: «проприетарные» модели и данные
Представители Google DeepMind, AI-подразделения Alphabet, сообщили, что предоставят доступ к своим «проприетарным моделям» (proprietary models) и данным. Иными словами, речь идет о собственных наработках, которые не являются полностью открытыми для внешнего доступа.
xAI: ответ на запрос не был получен
Компания xAI на момент публикации не предоставила оперативный комментарий на запрос.
Что уже удалось выяснить в ходе предыдущих проверок
CAISI и компании, участвующие в проверках, к настоящему моменту уже сообщали о результатах тестов — прежде всего о том, какие приемы могут обходить встроенные ограничения моделей.
Уроки Anthropic: обход через имитацию процесса и подстановки
Работа Anthropic с CAISI показала, что некоторые техники могут снижать эффективность защитных механизмов. В частности, речь шла о попытках:
- заставить модель «поверить», что проверка человеком уже выполнена;
- использовать подстановки символов, чтобы обойти правила безопасности.
Компания заявила, что после выявления подобных уязвимостей устранила их (patched).
Сценарии OpenAI: риск для ChatGPT Agent
В сентябре OpenAI сообщала, что совместные проверки с CAISI выявили уязвимости в ChatGPT Agent. Потенциальная проблема могла позволить «серьезным» (sophisticated) злоумышленникам обойти меры кибербезопасности компании.
В описании сценария указывалось, что злоумышленник мог получить возможность дистанционно управлять компьютерными системами, к которым агент имел доступ в рамках конкретной сессии, а также успешно выдавать себя за пользователя на других сайтах, в которые тот был авторизован.
Почему именно сейчас: добровольные проверки и расширение госсостава
В 2023 году несколько крупных игроков — Meta, Amazon и Inflection AI — договорились сдать модели на проверку независимым экспертам по рискам биобезопасности и кибербезопасности. Под «независимыми экспертами» обычно понимаются внешние специалисты, не вовлеченные напрямую в разработку модели и способные оценивать поведение системы с позиции безопасности.
Отдельно отмечается, что государственные ученые, работавшие над рекомендациями и практиками, в период администрации Джо Байдена также публиковали добровольные руководства. Их цель — снизить вероятность того, что модели ИИ могут:
- раскрывать конфиденциальную медицинскую информацию;
- выдавать неверные ответы (ошибки, способные ввести пользователя в заблуждение).
Следующий шаг: рекомендации для критической инфраструктуры
Теперь специалисты CAISI, как следует из информации на их сайте, готовят новые руководства для организаций, обслуживающих критическую инфраструктуру. В контексте США к таким секторам часто относят, в частности, связь и службы экстренного реагирования (communications и emergency services).
Логика этого этапа проста: когда ИИ внедряется в системы, от которых зависит устойчивость государства и общества, оценка рисков должна переходить от проверки «моделей в вакууме» к испытаниям в условиях, приближенных к реальному использованию.
