Почему США пришлось заморозить сильнейший ИИ Anthropic — и чего это стоило отрасли?

12 июня Министерство торговли США подписало приказ, который мало кто ожидал увидеть: два флагманских языковых продукта компании Anthropic, Claude Fable 5 и Claude Mythos 5, были отрезаны от всех иностранных граждан — вне зависимости от того, находились ли те в США или за рубежом. Под действие ограничений попали даже сотрудники компании без американского гражданства. Действие правило вступало немедленно.
Причиной стал джейлбрейк, обнаруженный исследователями Amazon. Специально сконструированный запрос обходил защитные механизмы Fable 5, после чего модель начинала выявлять программные уязвимости и в одном случае написала код, демонстрирующий способ эксплуатации такой уязвимости. Правительство и партнёр, передавший информацию, сочли угрозу достаточно серьёзной для введения экстренных экспортных контролей. Anthropic не располагала надёжным механизмом проверки гражданства каждого пользователя в режиме реального времени — поэтому оба продукта были отключены для всех.
Сама Anthropic с такой оценкой не согласилась. Компания указала, что те же джейлбрейк-запросы воспроизводятся на более слабых моделях: собственном Claude Opus 4.8, OpenAI GPT-5.5 и китайской Kimi K2.7. Обнаруженное поведение компания охарактеризовала как «рутинную защитную работу по безопасности», а не как признак скрытых сверхвозможностей модели. Бывший AI-czar Дэвид Сакс занял иную позицию: по его словам, Anthropic «поставила продолжение работы потребительской модели выше соображений безопасности».
За кулисами разворачивался и корпоративный конфликт. Несколько изданий, включая The Wall Street Journal, сообщали, что первоначальный приказ во многом был инициирован именно результатами исследования Amazon и озабоченностью генерального директора компании Энди Джасси. Переговоры с властями вёл сооснователь Anthropic Том Браун. CEO компании Дарио Амодей, по имеющимся сведениям, был фактически отстранён от процесса из-за предшествующих трений с администрацией.
Пока длились разбирательства, Anthropic разработала новый фильтр — классификатор безопасности, обученный распознавать и блокировать именно описанную технику джейлбрейка. По состоянию на 30 июня, когда контроли были сняты, фильтр блокировал атаку в более чем 99% попыток. Заблокированные запросы перенаправлялись к Claude Opus 4.8, а пользователь получал соответствующее уведомление. Компания честно признала побочный эффект: число ложных срабатываний на обычные задачи по программированию и отладке возросло.
26 июня ограниченный доступ к Mythos 5 — той же базовой модели, но с меньшим количеством защитных барьеров — был восстановлен примерно для 100 американских компаний и федеральных структур, занимающихся защитой критической инфраструктуры. 30 июня Министр торговли Говард Лутник подписал отмену экспортных контролей после двух недель совместного с Anthropic изучения моделей. 1 июля Fable 5 вернулся на все платформы: , Claude Platform, Claude Code и Claude Cowork. Работу с Mythos 5 для более широкого круга пользователей компания пока согласует с властями.
Условия соглашения оказались показательны сами по себе. Anthropic взяла на себя три обязательства: самостоятельно выявлять проблемы безопасности, координировать с правительством запуски новых моделей и сообщать о любых обнаруженных случаях вредоносного использования. Исследователь AI-governance Франческо Байло из Университета Сиднея в комментарии для Al Jazeera назвал происходящее ситуацией, в которой правительство фактически признало, что зашло слишком далеко. Группа руководителей в сфере безопасности направила открытое письмо с требованием снять контроли ещё до их отмены.
Пока шли переговоры, не отвлекались и конкуренты. Пауза совпала с активным продвижением дешёвых китайских open-source моделей. Несколько топ-менеджеров публично предупредили: заморозка американских продуктов даёт соперникам время наверстать отставание, причём бесплатно.
Именно поэтому параллельный шаг OpenAI выглядит вполне логичным. За несколько дней до снятия ограничений с Anthropic компания показала GPT-5.6 только небольшой одобренной правительством группе, а не широкой публике. Причина та же: модель, способная помочь специалистам по безопасности закрывать уязвимости, с таким же успехом помогает атакующим их искать.
Риски не абстрактны. Весной Anthropic тестировала более раннюю версию модели Mythos, которая на команду находила и эксплуатировала уязвимости нулевого дня во всех основных операционных системах и браузерах. В числе прочего модель воспользовалась ошибкой в OpenBSD возрастом 27 лет. Команда red team компании превращала свежеопубликованные уязвимости в рабочие эксплойты меньше чем за сутки.
В ответ Anthropic совместно с Amazon, Microsoft, Google и другими партнёрами предложила единый отраслевой стандарт оценки серьёзности джейлбрейков. Система учитывает четыре параметра: прирост возможностей, широту охвата атак, сложность практического применения и лёгкость воспроизведения техники. Для джейлбрейков с наихудшим потенциалом — например, позволяющих атаковать энергосети или банки — Anthropic обязалась развёртывать исправления немедленно по подтверждении угрозы и создала круглосуточную команду для мониторинга подобных сообщений. Параллельно открыта программа на HackerOne для независимых исследователей, нашедших новые уязвимости в Fable 5.
2 июня, ещё до всего этого, президентский указ создал добровольный механизм проверки новых моделей до их выпуска, утвердил засекреченный критерий для определения «подпадающих» моделей и прямо исключил любое обязательное лицензирование. Fable 5 через эту процедуру не проходил. Именно поэтому, когда возникла необходимость отреагировать быстро, у властей не оказалось под рукой ничего, кроме экспортных ограничений — инструмента, изначально созданного совсем для других целей. Это и есть реальная проблема, которую два с половиной недели заморозки обнажили лучше любого доклада: у Вашингтона пока нет обязательной, стандартизированной процедуры регулирования передовых ИИ-моделей до их выхода на рынок.


Новое на сайте

Ссылка