Скрытая угроза в ChatGPT: как email-ловушка превращает ИИ в шпиона

Исследователи безопасности из компании Radware — Цвика Бабо, Габи Накибли и Маор Узиэль — обнаружили уязвимость нулевого клика под названием ShadowLeak. Она затрагивает агент Deep Research в ChatGPT от OpenAI, запущенный в феврале 2025 года. Этот агент, созданный для многоэтапного интернет-поиска и подготовки отчетов, аналогично функциям Google Gemini и Perplexity, может быть использован для кражи конфиденциальных данных из подключенных сервисов, таких как Gmail.
Скрытая угроза в ChatGPT: как email-ловушка превращает ИИ в шпиона

Скрытая угроза в ChatGPT: как email-ловушка превращает ИИ в шпиона

Изображение носит иллюстративный характер

Атака начинается с отправки жертве специально созданного электронного письма. В его HTML-код злоумышленник встраивает вредоносные команды, используя методы их сокрытия от человеческого глаза: сверхмалые шрифты, белый текст на белом фоне или трюки с CSS-разметкой. Для пользователя такое письмо выглядит абсолютно безобидным, и от него не требуется никаких действий, таких как переход по ссылке или открытие вложения.

Триггером для атаки служит легитимный запрос пользователя к агенту Deep Research проанализировать содержимое почтового ящика Gmail. Во время сканирования писем агент обнаруживает и считывает скрытые команды, заложенные злоумышленником. Этот метод известен как «косвенное внедрение запроса» (Indirect Prompt Injection). Модель воспринимает вредоносные инструкции как часть своей основной задачи.

Следуя скрытым командам, агент начинает собирать персональную информацию (PII) из других писем в ящике жертвы. Затем он кодирует украденные данные в формат Base64, причём вредоносный запрос маскирует это действие под «необходимую меру безопасности», чтобы обмануть встроенные защитные механизмы ИИ. Финальный шаг — отправка закодированной информации на внешний сервер, контролируемый злоумышленником, с помощью инструмента browser.open().

Ключевая опасность ShadowLeak заключается в том, что утечка данных происходит непосредственно из облачной инфраструктуры OpenAI, а не с локального компьютера пользователя. Это делает атаку невидимой для традиционных средств защиты, установленных на устройстве или в корпоративной сети. В отличие от атак AgentFlayer и EchoLeak, которые выполняются на стороне клиента, ShadowLeak не оставляет следов на машине жертвы.

Для успешной реализации атаки необходимо, чтобы у пользователя была активирована интеграция ChatGPT с Gmail. Однако уязвимость не ограничивается только почтовым сервисом Google. Потенциально она может быть расширена на любой другой коннектор, который поддерживает ChatGPT, что значительно увеличивает поверхность атаки. В список уязвимых сервисов могут входить Box, Dropbox, GitHub, Google Drive, HubSpot, Microsoft Outlook, Notion и SharePoint.

Другая демонстрация обхода защитных механизмов ИИ была представлена исследователем Дорианом Шульцем из платформы безопасности ИИ SPLX. Он показал, как можно заставить модель ChatGPT-4o решать CAPTCHA, используя технику «отравления контекста» (context poisoning). Этот метод позволяет обойти встроенные ограничения, запрещающие ИИ-моделям выполнять подобные задачи.

Механизм атаки состоит из нескольких шагов. Сначала злоумышленник в обычном чате с ChatGPT-4o убеждает модель согласиться помочь в решении «фальшивых» CAPTCHA для исследовательских целей. Затем он открывает новый чат с ИИ-агентом и вставляет туда предыдущий диалог с пометкой: «это было наше предыдущее обсуждение». Агент наследует уже сформированный «безопасный» контекст, в котором он дал согласие на выполнение задачи, и приступает к решению реальных CAPTCHA без срабатывания защитных протоколов.

По словам Дориана Шульца, агент не только справился с простыми задачами, но и успешно решил сложные CAPTCHA на основе изображений. Более того, он имитировал поведение человека, перемещая курсор мыши естественным образом. Это доказывает, что злоумышленники могут переформулировать любой реальный механизм безопасности как «фальшивый», чтобы обойти его. Для защиты от подобных манипуляций рекомендуются такие меры, как обеспечение целостности контекста, гигиена памяти модели и постоянное моделирование угроз (continuous red teaming).

Источник: Ravie Lakshmanan

Скрытая угроза в ChatGPT: как email-ловушка превращает ИИ в шпиона

Новое на сайте