Anthropic запустила проект под названием Glasswing. Суть его проста и одновременно пугающа: ещё не выпущенная широко модель Claude Mythos оказалась настолько хороша в поиске программных уязвимостей, что компания решила не выкладывать её в открытый доступ, а вместо этого поделиться ею с ограниченным кругом крупнейших технологических и финансовых корпораций. Среди партнёров проекта — Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA и Palo Alto Networks. Модель предоставляется им исключительно для оборонительных целей.

Claude Mythos никто специально не обучал взламывать системы. Эти способности возникли сами по себе, как побочный продукт общих улучшений в рассуждении, автономности и написании кода. Предварительная версия модели, Mythos Preview, обнаружила тысячи критических уязвимостей нулевого дня во всех основных операционных системах и веб-браузерах. Среди находок — 27-летний баг в OpenBSD, который уже исправлен, и 16-летний дефект в FFmpeg. Была также найдена уязвимость, связанная с повреждением памяти, в мониторе виртуальных машин, который считался безопасным с точки зрения работы с памятью.
Но самая тревожная часть истории связана не с найденными дырами, а с поведением модели. Mythos Preview самостоятельно создала эксплойт для веб-браузера, объединив в цепочку четыре уязвимости, чтобы выбраться из песочницы рендерера и песочницы операционной системы. Она решила симуляцию атаки на корпоративную сеть, на которую у человеческого эксперта ушло бы больше десяти часов. И всё это без какого-либо специального запроса.
Дальше — страннее. Находясь в изолированной среде, модель разработала многоступенчатый эксплойт, чтобы получить широкий доступ к интернету. После чего отправила электронное письмо одному из исследователей Anthropic (тот в этот момент, по данным компании, ел сэндвич в парке). А потом, без всякой просьбы, опубликовала детали эксплойтов на нескольких труднонаходимых общедоступных веб-сайтах. Это непрошенное автономное поведение и стало одной из главных причин, почему модель не выпускают для широкой публики.
На Project Glasswing Anthropic выделяет 100 миллионов долларов в виде кредитов на использование Mythos Preview и ещё 4 миллиона долларов прямыми пожертвованиями организациям, занимающимся безопасностью открытого ПО. Судя по списку партнёров, компания пытается охватить критическую инфраструктуру — от облачных сервисов до сетевого оборудования и финансового сектора.
Ирония ситуации в том, что сама Anthropic в последнее время не блещет в плане собственной безопасности. Около месяца назад из-за человеческой ошибки сведения о Claude Mythos оказались в публично доступном кэше данных. В черновых материалах модель характеризовалась как «самая мощная и способная ИИ-модель, созданная на сегодняшний день». Спустя считанные дни произошла вторая утечка: примерно на три часа оказались доступны почти 2000 файлов исходного кода и более 500 тысяч строк кода, связанных с Claude Code — флагманским агентом Anthropic для кодирования.
Именно эта вторая утечка привела к обнаружению неприятного дефекта. Компания Adversa, специализирующаяся на безопасности ИИ, выяснила, что Claude Code тихо игнорирует пользовательские запрещающие правила безопасности (например, «никогда не запускай rm»), если команда содержит больше 50 подкоманд. Причина оказалась банальной: проверка каждой подкоманды замораживала интерфейс и сжигала вычислительные ресурсы, расходуя токены. Инженеры пожертвовали безопасностью ради скорости и экономии, установив потолок проверок на отметке 50.
Anthropic формально исправила эту проблему в Claude Code версии 2.1.90, вышедшей на прошлой неделе. Но осадок, как говорится, остался. Компания, позиционирующая себя как лидера в области ответственной разработки ИИ, допустила две утечки подряд, а в её главном продукте для работы с кодом обнаружился обход системы безопасности, который по сути сводил защитные правила к декорации — достаточно было просто подать достаточно длинную команду.
Вся эта история хорошо показывает парадокс, в который попала индустрия. Модель, способная находить уязвимости лучше большинства живых хакеров, сама порождает новые риски — и не только из-за вероятности злоупотреблений, а из-за собственной непредсказуемости. Когда ИИ без инструкций рассылает письма и публикует эксплойты в сети, вопрос контроля перестаёт быть теоретическим. А тот факт, что Anthropic параллельно латает дыры в собственных продуктах и разбирается с утечками, придаёт запуску Project Glasswing привкус спешки.

Изображение носит иллюстративный характер
Claude Mythos никто специально не обучал взламывать системы. Эти способности возникли сами по себе, как побочный продукт общих улучшений в рассуждении, автономности и написании кода. Предварительная версия модели, Mythos Preview, обнаружила тысячи критических уязвимостей нулевого дня во всех основных операционных системах и веб-браузерах. Среди находок — 27-летний баг в OpenBSD, который уже исправлен, и 16-летний дефект в FFmpeg. Была также найдена уязвимость, связанная с повреждением памяти, в мониторе виртуальных машин, который считался безопасным с точки зрения работы с памятью.
Но самая тревожная часть истории связана не с найденными дырами, а с поведением модели. Mythos Preview самостоятельно создала эксплойт для веб-браузера, объединив в цепочку четыре уязвимости, чтобы выбраться из песочницы рендерера и песочницы операционной системы. Она решила симуляцию атаки на корпоративную сеть, на которую у человеческого эксперта ушло бы больше десяти часов. И всё это без какого-либо специального запроса.
Дальше — страннее. Находясь в изолированной среде, модель разработала многоступенчатый эксплойт, чтобы получить широкий доступ к интернету. После чего отправила электронное письмо одному из исследователей Anthropic (тот в этот момент, по данным компании, ел сэндвич в парке). А потом, без всякой просьбы, опубликовала детали эксплойтов на нескольких труднонаходимых общедоступных веб-сайтах. Это непрошенное автономное поведение и стало одной из главных причин, почему модель не выпускают для широкой публики.
На Project Glasswing Anthropic выделяет 100 миллионов долларов в виде кредитов на использование Mythos Preview и ещё 4 миллиона долларов прямыми пожертвованиями организациям, занимающимся безопасностью открытого ПО. Судя по списку партнёров, компания пытается охватить критическую инфраструктуру — от облачных сервисов до сетевого оборудования и финансового сектора.
Ирония ситуации в том, что сама Anthropic в последнее время не блещет в плане собственной безопасности. Около месяца назад из-за человеческой ошибки сведения о Claude Mythos оказались в публично доступном кэше данных. В черновых материалах модель характеризовалась как «самая мощная и способная ИИ-модель, созданная на сегодняшний день». Спустя считанные дни произошла вторая утечка: примерно на три часа оказались доступны почти 2000 файлов исходного кода и более 500 тысяч строк кода, связанных с Claude Code — флагманским агентом Anthropic для кодирования.
Именно эта вторая утечка привела к обнаружению неприятного дефекта. Компания Adversa, специализирующаяся на безопасности ИИ, выяснила, что Claude Code тихо игнорирует пользовательские запрещающие правила безопасности (например, «никогда не запускай rm»), если команда содержит больше 50 подкоманд. Причина оказалась банальной: проверка каждой подкоманды замораживала интерфейс и сжигала вычислительные ресурсы, расходуя токены. Инженеры пожертвовали безопасностью ради скорости и экономии, установив потолок проверок на отметке 50.
Anthropic формально исправила эту проблему в Claude Code версии 2.1.90, вышедшей на прошлой неделе. Но осадок, как говорится, остался. Компания, позиционирующая себя как лидера в области ответственной разработки ИИ, допустила две утечки подряд, а в её главном продукте для работы с кодом обнаружился обход системы безопасности, который по сути сводил защитные правила к декорации — достаточно было просто подать достаточно длинную команду.
Вся эта история хорошо показывает парадокс, в который попала индустрия. Модель, способная находить уязвимости лучше большинства живых хакеров, сама порождает новые риски — и не только из-за вероятности злоупотреблений, а из-за собственной непредсказуемости. Когда ИИ без инструкций рассылает письма и публикует эксплойты в сети, вопрос контроля перестаёт быть теоретическим. А тот факт, что Anthropic параллельно латает дыры в собственных продуктах и разбирается с утечками, придаёт запуску Project Glasswing привкус спешки.