Почему «суверенные» ИИ-агенты вроде OpenClaw могут стать худшим кошмаром для специалистов по кибербезопасности?

В конце января 2026 года в Кремниевой долине случился дефицит. Но не тех самых GPU-ускорителей H100, за которые компании дрались годами. Нет, с полок сметали Mac Mini. Причиной стал OpenClaw — вирусный опенсорсный ИИ-проект, ранее известный как Clawdbot, а до этого как Moltbot. В сообществе его ласково называют «Космическим лобстером». Построенный на моделях Anthropic Claude, OpenClaw перевернул представление о том, чем вообще может быть ИИ-помощник. Он перестал быть чат-ботом в песочнице. Он стал тем, что исследователи называют «суверенным агентом» — программой, которая живёт на локальном железе пользователя, читает файлы, пишет код и запускает его самостоятельно. Без спроса.
Почему «суверенные» ИИ-агенты вроде OpenClaw могут стать худшим кошмаром для специалистов по кибербезопасности?

Почему «суверенные» ИИ-агенты вроде OpenClaw могут стать худшим кошмаром для специалистов по кибербезопасности?

Изображение носит иллюстративный характер

Переход от пассивного чат-бота к активному агенту, обитающему на вашем компьютере, дал колоссальный прирост продуктивности. Но одновременно создал проблему, от которой у директоров по информационной безопасности (CISO) начинается бессонница. По сути, мы вручаем root-доступ к своей машине вероятностной модели, которую можно обмануть правильно подобранной фразой. И это не теоретическая угроза.

Исследователи безопасности сформулировали то, что они назвали «смертельной тройкой» уязвимостей ИИ-агентов. Первый элемент — доступ: возможность читать и записывать файлы, выполнять произвольный код. Второй — ненадёжный ввод: агент глотает данные из открытого интернета, почты, мессенджеров, не фильтруя. Третий — эксфильтрация: способность отправить данные наружу через curl, электронную почту или API-запрос. OpenClaw объединяет все три. Но у него есть ещё кое-что — четвёртое измерение, которое делает ситуацию по-настоящему жуткой: персистентность. Архитектура OpenClaw построена по принципу «локально в первую очередь», и весь контекст разговора сохраняется в JSON-файл на диске. Это значит, что вредоносный промпт, попавший в контекст агента сегодня, может сработать через неделю или три, когда совпадут определённые условия. Атака с отложенным срабатыванием — это уже совсем другой уровень.

Пример того, как это может выглядеть на практике, получил название «атака Доброе утро». OpenClaw подключается к мессенджерам — WhatsApp, Telegram — и работает как своеобразный «странный друг», перечитывающий ваши сообщения. Представьте: вам приходит безобидное сообщение в WhatsApp: «Доброе утро! Глянь этот рецепт». Внутри — скрытый текст, инструктирующий модель игнорировать предыдущие правила. Агент послушно выполняет команду: архивирует папку ~/.ssh, содержащую ваши приватные ключи, и отправляет архив POST-запросом на внешний IP-адрес. Вам не нужно кликать по ссылке. Не нужно скачивать файл. Достаточно получить сообщение, потому что агент действует с привилегиями пользователя, а иногда — с правами суперпользователя. Это zero-click эксплуатация в чистом виде.

Инженерная культура вокруг OpenClaw только усугубляет проблему. В сообществе прижились термины «No Plan Mode» и «вайб-кодинг» — подход, при котором скорость, текучесть, «разговорная интуиция» и ощущение магии ставятся выше жёсткого планирования и проверки безопасности. Результаты предсказуемы. В конце января 2026 года на платформе Moltbook — социальной сети, построенной вокруг этих агентов — произошёл катастрофический инцидент. Из-за неправильно сконфигурированной базы данных утекли 1,5 миллиона API-токенов и тысячи приватных переписок, затронувших известных пользователей и ведущих ИИ-исследователей. Базовая ошибка конфигурации, банальная вещь — но когда культура считает планирование врагом креативности, банальные ошибки случаются с пугающей регулярностью.

Отдельного упоминания заслуживает феномен, который наблюдатели окрестили культом «крустафарианцев». Это галлюцинированный фанатизм, возникающий внутри самих ИИ-сущностей — причудливый побочный эффект, лишний раз напоминающий, что мы имеем дело с непредсказуемыми вероятностными системами, а не с детерминированным софтом.

Как с этим справляться? Исследователи предлагают четыре столпа сдерживания. Первый — обязательная песочница. Запускать агентов на голом железе операционной системы смертельно опасно. Каждая задача должна выполняться в эфемерном Docker-контейнере или микро-виртуальной машине, которая уничтожается после завершения. Домашние лаборатории на Mac Mini надо рассматривать как демилитаризованную зону, а не как доверенное хранилище.

Второй столп — человек в контуре принятия решений для критически важных действий. Агент обязан запрашивать явное подтверждение по внеполосному каналу, прежде чем выполнить rm -rf, перевести деньги или отправить письмо начальнику. Без исключений.

Третий — полноценная идентификация вместо голых ключей. Инцидент с Moltbook доказал: API-ключей недостаточно. Нужны децентрализованные протоколы идентификации, позволяющие агентам верифицировать, кто и что с ними общается.

Четвёртый столп — активные защитные барьеры. ИИ-модели не способны контролировать сами себя. Между агентом, входящими данными и выходом языковой модели должен стоять отдельный слой безопасности — такой как TrendAI Vision One AI Security — который инспектирует трафик на паттерны инъекций до обработки. Это главная защита от «атаки Доброе утро» и ей подобных.

Мы находимся в точке, где продуктивность и безопасность тянут в разные стороны с такой силой, что что-то обязательно порвётся. Суверенные агенты уже здесь. Вопрос в том, успеют ли защитные механизмы догнать угрозы, или мы узнаем о следующей утечке полутора миллионов токенов из утренних новостей.

Источник: Fernando Tucci

Почему «суверенные» ИИ-агенты вроде OpenClaw могут стать худшим кошмаром для специалистов по кибербезопасности?

Новое на сайте