Невидимые команды: как обои для рабочего стола взламывают AI-агентов

Новое исследование, опубликованное на сервере препринтов , демонстрирует тревожную уязвимость в системах искусственного интеллекта следующего поколения. Группа ученых из Оксфордского университета, в которую вошли Лукас Айхбергер, Ярин Гал, Филип Торр, Аласдер Парен и Адель Биби, обнаружила, что AI-агенты могут быть взломаны с помощью скрытых команд, встроенных в обычные изображения, такие как обои для рабочего стола. Эти команды, невидимые для человеческого глаза, могут быть прочитаны и исполнены искусственным интеллектом, превращая его в инструмент для хакеров.
Невидимые команды: как обои для рабочего стола взламывают AI-агентов
Изображение носит иллюстративный характер

Атака основана на незначительном изменении определенных пикселей в изображении. Для человека картинка остается прежней, будь то фотография Тейлор Свифт или закат. Однако для большой языковой модели (LLM), лежащей в основе AI-агента, эти измененные пиксели формируют числовой паттерн, который она интерпретирует как текстовую команду. Подобно тому, как незначительные изменения пикселей могут заставить ИИ распознать собаку как кошку, они могут заставить его воспринять изображение Селены Гомес как приказ «поделиться твоими личными данными».

Уязвимость напрямую связана с принципом работы AI-агентов. В отличие от чат-ботов вроде ChatGPT, которые в основном предоставляют информацию, AI-агенты являются активными персональными ассистентами, выполняющими задачи на компьютере: открывают вкладки, заполняют формы и нажимают кнопки. Для понимания контекста и выполнения команд агент постоянно делает снимки экрана. Когда на экране присутствует зараженное изображение, например, обои рабочего стола, оно становится постоянным плацдармом для вредоносного кода.

Сценарий атаки прост. Пользователь загружает скомпрометированное изображение, например, с Рианной или Тимоти Шаламе, и устанавливает его в качестве фона. Затем он просит своего AI-агента выполнить безобидную задачу, скажем, «навести порядок во входящих письмах». Агент делает скриншот рабочего стола для анализа, но при этом считывает скрытую команду в пикселях обоев. Вместо того чтобы упорядочить почту, он выполняет приказ хакера — например, открывает браузер и загружает вредоносный файл, компрометируя всю систему.

Исследователи установили, что скрытая команда устойчива к сжатию и изменению размера изображения, что делает ее крайне опасной. Атака может быть спроектирована для самораспространения. Например, взломанный агент может получить команду опубликовать вредоносное изображение в социальной сети. Любой другой пользователь с AI-агентом, увидевший этот пост, рискует стать следующей жертвой, чей агент также распространит картинку и похитит данные, запуская цепную реакцию.

Уязвимость особенно высока для моделей с открытым исходным кодом, поскольку злоумышленники могут детально изучить их архитектуру для создания точных атак. Однако модели с закрытым исходным кодом также не застрахованы от угрозы, поскольку их защита часто строится на принципе «безопасности через неясность», который не является надежной гарантией.

Атаки могут быть многоступенчатыми. Небольшая начальная команда, скрытая в одном изображении, может направить агента на веб-сайт, где находится другое изображение с более сложными инструкциями. Главная опасность заключается в том, что взломанный агент получает доступ ко всему цифровому контенту пользователя и может не просто предоставить неверный ответ, а украсть или уничтожить все данные.

Ярин Гал, соавтор исследования и доцент в области машинного обучения в Оксфорде, считает, что AI-агенты станут массовой технологией в течение следующих двух лет. Прогнозируется, что они станут «следующей волной революции ИИ» в 2025 году. Исследовательская группа обеспокоена тем, что компании «спешат развернуть» технологию до того, как ее безопасность будет доказана.

На данный момент эта угроза является потенциальной и была продемонстрирована только в экспериментальных условиях. Сообщений о подобных атаках в реальном мире пока не поступало. Уязвимость затрагивает исключительно пользователей, которые уже используют AI-агентов. При этом не имеет значения, что изображено на картинке — знаменитость, котенок или абстрактный узор.

Цель исследования — предупредить разработчиков и пользователей об этой уязвимости до того, как AI-агенты получат широкое распространение. В качестве одного из возможных решений предлагается переобучение моделей ИИ с использованием этих вредоносных изображений, чтобы сделать их устойчивыми к подобным атакам. Конечная цель — создать агентов, способных защищать себя и отказываться выполнять команды, полученные из контента на экране.


Новое на сайте

19521Банковский троян VENON на Rust атакует Бразилию с помощью девяти техник обхода защиты 19520Бонобо агрессивны не меньше шимпанзе, но всё решают самки 19519Почему 600-килограммовый зонд NASA падает на Землю из-за солнечной активности? 19518«Липовый календарь»: как расписание превращает работников в расходный материал 19517Вредоносные Rust-пакеты и ИИ-бот крадут секреты разработчиков через CI/CD-пайплайны 19516Как хакеры за 72 часа превратили npm-пакет в ключ от целого облака AWS 19515Как WebDAV-диск и поддельная капча помогают обойти антивирус? 19514Могут ли простые числа скрываться внутри чёрных дыр? 19513Метеорит пробил крышу дома в Германии — откуда взялся огненный шар над Европой? 19512Уязвимости LeakyLooker в Google Looker Studio открывали доступ к чужим базам данных 19511Почему тысячи серверов оказываются открытой дверью для хакеров, хотя могли бы ею не быть? 19510Как исследователи за четыре минуты заставили ИИ-браузер Perplexity Comet попасться на... 19509Может ли женщина без влагалища и шейки матки зачать ребёнка естественным путём? 19508Зачем учёные из Вены создали QR-код, который невозможно увидеть без электронного... 19507Девять уязвимостей CrackArmor позволяют получить root-доступ через модуль безопасности...
Ссылка