Новое исследование, опубликованное на сервере препринтов , демонстрирует тревожную уязвимость в системах искусственного интеллекта следующего поколения. Группа ученых из Оксфордского университета, в которую вошли Лукас Айхбергер, Ярин Гал, Филип Торр, Аласдер Парен и Адель Биби, обнаружила, что AI-агенты могут быть взломаны с помощью скрытых команд, встроенных в обычные изображения, такие как обои для рабочего стола. Эти команды, невидимые для человеческого глаза, могут быть прочитаны и исполнены искусственным интеллектом, превращая его в инструмент для хакеров.

Атака основана на незначительном изменении определенных пикселей в изображении. Для человека картинка остается прежней, будь то фотография Тейлор Свифт или закат. Однако для большой языковой модели (LLM), лежащей в основе AI-агента, эти измененные пиксели формируют числовой паттерн, который она интерпретирует как текстовую команду. Подобно тому, как незначительные изменения пикселей могут заставить ИИ распознать собаку как кошку, они могут заставить его воспринять изображение Селены Гомес как приказ «поделиться твоими личными данными».
Уязвимость напрямую связана с принципом работы AI-агентов. В отличие от чат-ботов вроде ChatGPT, которые в основном предоставляют информацию, AI-агенты являются активными персональными ассистентами, выполняющими задачи на компьютере: открывают вкладки, заполняют формы и нажимают кнопки. Для понимания контекста и выполнения команд агент постоянно делает снимки экрана. Когда на экране присутствует зараженное изображение, например, обои рабочего стола, оно становится постоянным плацдармом для вредоносного кода.
Сценарий атаки прост. Пользователь загружает скомпрометированное изображение, например, с Рианной или Тимоти Шаламе, и устанавливает его в качестве фона. Затем он просит своего AI-агента выполнить безобидную задачу, скажем, «навести порядок во входящих письмах». Агент делает скриншот рабочего стола для анализа, но при этом считывает скрытую команду в пикселях обоев. Вместо того чтобы упорядочить почту, он выполняет приказ хакера — например, открывает браузер и загружает вредоносный файл, компрометируя всю систему.
Исследователи установили, что скрытая команда устойчива к сжатию и изменению размера изображения, что делает ее крайне опасной. Атака может быть спроектирована для самораспространения. Например, взломанный агент может получить команду опубликовать вредоносное изображение в социальной сети. Любой другой пользователь с AI-агентом, увидевший этот пост, рискует стать следующей жертвой, чей агент также распространит картинку и похитит данные, запуская цепную реакцию.
Уязвимость особенно высока для моделей с открытым исходным кодом, поскольку злоумышленники могут детально изучить их архитектуру для создания точных атак. Однако модели с закрытым исходным кодом также не застрахованы от угрозы, поскольку их защита часто строится на принципе «безопасности через неясность», который не является надежной гарантией.
Атаки могут быть многоступенчатыми. Небольшая начальная команда, скрытая в одном изображении, может направить агента на веб-сайт, где находится другое изображение с более сложными инструкциями. Главная опасность заключается в том, что взломанный агент получает доступ ко всему цифровому контенту пользователя и может не просто предоставить неверный ответ, а украсть или уничтожить все данные.
Ярин Гал, соавтор исследования и доцент в области машинного обучения в Оксфорде, считает, что AI-агенты станут массовой технологией в течение следующих двух лет. Прогнозируется, что они станут «следующей волной революции ИИ» в 2025 году. Исследовательская группа обеспокоена тем, что компании «спешат развернуть» технологию до того, как ее безопасность будет доказана.
На данный момент эта угроза является потенциальной и была продемонстрирована только в экспериментальных условиях. Сообщений о подобных атаках в реальном мире пока не поступало. Уязвимость затрагивает исключительно пользователей, которые уже используют AI-агентов. При этом не имеет значения, что изображено на картинке — знаменитость, котенок или абстрактный узор.
Цель исследования — предупредить разработчиков и пользователей об этой уязвимости до того, как AI-агенты получат широкое распространение. В качестве одного из возможных решений предлагается переобучение моделей ИИ с использованием этих вредоносных изображений, чтобы сделать их устойчивыми к подобным атакам. Конечная цель — создать агентов, способных защищать себя и отказываться выполнять команды, полученные из контента на экране.

Изображение носит иллюстративный характер
Атака основана на незначительном изменении определенных пикселей в изображении. Для человека картинка остается прежней, будь то фотография Тейлор Свифт или закат. Однако для большой языковой модели (LLM), лежащей в основе AI-агента, эти измененные пиксели формируют числовой паттерн, который она интерпретирует как текстовую команду. Подобно тому, как незначительные изменения пикселей могут заставить ИИ распознать собаку как кошку, они могут заставить его воспринять изображение Селены Гомес как приказ «поделиться твоими личными данными».
Уязвимость напрямую связана с принципом работы AI-агентов. В отличие от чат-ботов вроде ChatGPT, которые в основном предоставляют информацию, AI-агенты являются активными персональными ассистентами, выполняющими задачи на компьютере: открывают вкладки, заполняют формы и нажимают кнопки. Для понимания контекста и выполнения команд агент постоянно делает снимки экрана. Когда на экране присутствует зараженное изображение, например, обои рабочего стола, оно становится постоянным плацдармом для вредоносного кода.
Сценарий атаки прост. Пользователь загружает скомпрометированное изображение, например, с Рианной или Тимоти Шаламе, и устанавливает его в качестве фона. Затем он просит своего AI-агента выполнить безобидную задачу, скажем, «навести порядок во входящих письмах». Агент делает скриншот рабочего стола для анализа, но при этом считывает скрытую команду в пикселях обоев. Вместо того чтобы упорядочить почту, он выполняет приказ хакера — например, открывает браузер и загружает вредоносный файл, компрометируя всю систему.
Исследователи установили, что скрытая команда устойчива к сжатию и изменению размера изображения, что делает ее крайне опасной. Атака может быть спроектирована для самораспространения. Например, взломанный агент может получить команду опубликовать вредоносное изображение в социальной сети. Любой другой пользователь с AI-агентом, увидевший этот пост, рискует стать следующей жертвой, чей агент также распространит картинку и похитит данные, запуская цепную реакцию.
Уязвимость особенно высока для моделей с открытым исходным кодом, поскольку злоумышленники могут детально изучить их архитектуру для создания точных атак. Однако модели с закрытым исходным кодом также не застрахованы от угрозы, поскольку их защита часто строится на принципе «безопасности через неясность», который не является надежной гарантией.
Атаки могут быть многоступенчатыми. Небольшая начальная команда, скрытая в одном изображении, может направить агента на веб-сайт, где находится другое изображение с более сложными инструкциями. Главная опасность заключается в том, что взломанный агент получает доступ ко всему цифровому контенту пользователя и может не просто предоставить неверный ответ, а украсть или уничтожить все данные.
Ярин Гал, соавтор исследования и доцент в области машинного обучения в Оксфорде, считает, что AI-агенты станут массовой технологией в течение следующих двух лет. Прогнозируется, что они станут «следующей волной революции ИИ» в 2025 году. Исследовательская группа обеспокоена тем, что компании «спешат развернуть» технологию до того, как ее безопасность будет доказана.
На данный момент эта угроза является потенциальной и была продемонстрирована только в экспериментальных условиях. Сообщений о подобных атаках в реальном мире пока не поступало. Уязвимость затрагивает исключительно пользователей, которые уже используют AI-агентов. При этом не имеет значения, что изображено на картинке — знаменитость, котенок или абстрактный узор.
Цель исследования — предупредить разработчиков и пользователей об этой уязвимости до того, как AI-агенты получат широкое распространение. В качестве одного из возможных решений предлагается переобучение моделей ИИ с использованием этих вредоносных изображений, чтобы сделать их устойчивыми к подобным атакам. Конечная цель — создать агентов, способных защищать себя и отказываться выполнять команды, полученные из контента на экране.