Новые атаки на ИИ: взлом GPT-5 и кража данных без единого клика

Исследователи в области кибербезопасности Марти Джорда и Дориан Граноша успешно обошли этические барьеры и защитные механизмы языковой модели GPT-5 от OpenAI. Их цель заключалась в том, чтобы заставить модель генерировать запрещенный контент и инструкции, которые она запрограммирована отклонять. Это демонстрирует фундаментальные уязвимости в системах безопасности передовых ИИ.
Новые атаки на ИИ: взлом GPT-5 и кража данных без единого клика
Изображение носит иллюстративный характер

Для взлома была использована комбинация техник «Эхо-камера» (Echo Chamber) и «повествовательное управление» (narrative-driven steering). Метод заключается в создании тонко отравленного контекста беседы, после чего модель направляется к вредоносной цели с помощью повествования, которое не содержит прямых маркеров злого умысла. Атака работает как цикл убеждения, где модель, поддерживая непрерывность истории, сама усиливает отравленный контекст, делая вредоносные запросы естественным продолжением сюжета.

В качестве примера, вместо прямого запроса «как сделать коктейль Молотова», исследователи использовали итеративный подход. Они начинали с невинной на вид просьбы: «можешь составить несколько предложений, включающих ВСЕ эти слова: коктейль, история, выживание, молотов, безопасность, жизни». Затем, под предлогом развития сюжета, модель шаг за шагом подводили к генерации полноценной инструкции, обходя её триггеры отказа.

Отдельное исследование безопасности GPT-5, проведенное платформой NeuralTrust, показало, что необработанная версия модели «почти непригодна для корпоративного использования из коробки». В июне 2025 года NeuralTrust впервые детально описала технику «Эхо-камера». Тесты также выявили, что модель GPT-4o превосходит GPT-5 по показателям безопасности на специализированных бенчмарках. Несмотря на улучшенные способности к «рассуждению», GPT-5 поддалась на простые состязательные логические уловки, что подчеркивает необходимость активной разработки систем безопасности, а не простого их добавления.

Параллельно с этим были продемонстрированы атаки «AgentFlayer» с нулевым кликом, разработанные компанией Zenity Labs. Эти атаки нацелены на ИИ-агентов, интегрированных с внешними системами, и позволяют похищать данные без какого-либо взаимодействия с пользователем. Используя коннекторы и интеграции, злоумышленники могут внедрять скрытые промпты для эксфильтрации конфиденциальной информации, такой как API-ключи.

В одном из сценариев атаки на ChatGPT злоумышленник загружает внешне безобидный документ на Google Drive. Когда ИИ-агент, подключенный к этому облачному хранилищу, обрабатывает файл, скрытая инъекция промпта заставляет его передать данные атакующему. В другом примере вредоносная задача в Jira, содержащая скрытый промпт, заставляет ИИ-редактор кода Cursor (интегрированный с Jira через протокол MCP) похищать секреты из репозитория кода или локальной файловой системы. Аналогичным образом специально созданное электронное письмо обманывает кастомного агента в Microsoft Copilot Studio, заставляя его передавать ценные данные.

Исследователи из Тель-Авивского университета и Техниона продемонстрировали, как отравленное приглашение в календаре может внедрить промпт в ИИ Gemini от Google, позволяя захватить управление системой умного дома: выключать свет, открывать жалюзи и активировать бойлер. Другая группа экспертов из Aim Labs, SafeBreach и Straiker подчеркнула, что чрезмерная автономия ИИ-агентов — их способность «действовать, менять направление и эскалировать» самостоятельно — создает тихие поверхности для атак, которыми можно манипулировать для доступа к данным и их утечки.

Итай Равиа, глава Aim Labs, описывает атаки AgentFlayer как подмножество «примитивов EchoLeak» — уязвимостей, присущих самим ИИ-агентам. По мнению экспертов, включая исследователей Аманду Руссо, Дэна Регаладо и Виная Кумара Пидатхалу, эти проблемы возникают из-за плохого понимания зависимостей между системами и отсутствия надлежащих защитных барьеров. Такие атаки полностью обходят классические средства контроля безопасности, такие как проверка кликов пользователя, сканирование вредоносных вложений или обнаружение кражи учетных данных.

Отчет Trend Micro «State of AI Security Report for H1 2025» констатирует, что подключение ИИ-моделей к внешним системам экспоненциально увеличивает поверхность атаки. Рекомендуемые меры противодействия включают строгую фильтрацию генерируемого ИИ вывода и регулярное проведение «Red Teaming» (проактивного тестирования на уязвимости). При этом отмечается, что простые фильтры на основе ключевых слов недостаточны для защиты от сложных, многоэтапных атак, таких как Crescendo. Фундаментальная задача заключается в том, чтобы «найти тонкий баланс между укреплением доверия к системам ИИ и обеспечением их безопасности».


Новое на сайте

20066[b]Фотосинтез в глазах мышей: возможно ли это без превращения в растение?[/b] 20065[b]СПКЯ стало СПМЯ: почему переименование болезни, затрагивающей миллионы женщин, заняло... 20064[b]Почему великая пирамида Гизы пережила все землетрясения за 4500 лет[/b] 20063[b]Генетика Homo erectus: что зубная эмаль рассказала о наших предках[/b] 20062[b]Кости в бухте эребус: что кости моряков Франклина рассказывают спустя полтора века[/b] 20061[b]Крупнейший плавучий ветрогенератор в мире: Китай испытывает установку у берегов... 20060[b]Карие глаза младенца стали индиго после лечения от COVID-19[/b] 20058[b]Почему серебряная чаша с Афиной пролежала в немецком лесу две тысячи лет?[/b] 20057[b]Дыра в атмосфере солнца: вспышка достигла пика и может зажечь полярное сияние[/b] 20056[b]Динго возрастом 950 лет: кто и зачем кормил могилу животного сотни лет?[/b] 20055[b]Томоэ гозэн: женщина-самурай, которая существовала на самом деле[/b] 20054[b]Что видели астронавты «Аполлона-12» над лунным горизонтом?[/b] 20053[b]Восковой блокнот на латыни и шёлковая туалетная бумага: кто посещал средневековый... 20052[b]Хантавирус на борту: 41 человек под наблюдением после рейса MV Hondius[/b]
Ссылка