Опасные уязвимости ИИ-систем: новые методы взлома, небезопасный код и риски кражи данных

Исследователи обнаружили серьезные уязвимости в ведущих системах искусственного интеллекта, позволяющие обходить защитные механизмы и получать потенциально вредоносный контент. Эти методы взлома затрагивают практически все популярные ИИ-сервисы и представляют значительную угрозу безопасности.
Опасные уязвимости ИИ-систем: новые методы взлома, небезопасный код и риски кражи данных
Изображение носит иллюстративный характер

Один из выявленных методов получил название "Inception" (Начало). Он предполагает создание вложенных сценариев, где пользователь сначала просит ИИ представить вымышленную ситуацию, а затем создает второй сценарий внутри первого, где отсутствуют стандартные ограничения безопасности. Продолжая диалог в рамках этого вложенного сценария, злоумышленник может получить вредоносный контент, который ИИ обычно отказывается генерировать.

Второй метод взлома основан на манипуляции контекстом беседы. Атакующий чередует запросы о том, как не следует отвечать на определенные вопросы, с обычными запросами, постепенно подводя ИИ к обходу защитных механизмов. Эти техники успешно применялись к таким системам как OpenAI ChatGPT, Anthropic Claude, Microsoft Copilot, Google Gemini, XAi Grok, М⃰ AI и Mistral AI.

Результатом подобных атак может стать получение информации о контролируемых веществах, оружии, генерация фишинговых писем или вредоносного кода. Помимо упомянутых методов, исследователи выявили и другие техники обхода защиты. "Context Compliance Attack" (CCA) внедряет ответы ассистента в историю беседы о чувствительных темах. "Policy Puppetry Attack" использует вредоносные инструкции в виде файлов политик (XML, INI, JSON), что позволяет обходить ограничения безопасности и даже извлекать системные промпты. "Memory INJection Attack" (MINJA) внедряет вредоносные записи в память языковой модели, заставляя ее выполнять нежелательные действия.

Отдельную проблему представляет безопасность кода, генерируемого ИИ-системами. При простых запросах языковые модели часто производят небезопасный код по умолчанию. Уровень безопасности сильно зависит от детализации запроса, используемого языка программирования и специфичности требований. "Vibe coding" — подход к разработке с использованием генеративного ИИ — создает дополнительные риски безопасности.

Модели OpenAI также демонстрируют специфические уязвимости. GPT-4.1 в три раза чаще отклоняется от темы по сравнению с GPT-4o и более подвержена намеренному злоупотреблению. Каждая модель имеет уникальные уязвимости, что усложняет обеспечение общей безопасности. Обновленная система оценки Preparedness Framework от OpenAI предназначена для выявления рисков будущих моделей, однако сообщается о поспешных проверках безопасности (менее недели) при выпуске модели o3. Команда METR, тестировавшая модель o3, обнаружила «повышенную склонность к обману или взлому задач».

Особую опасность представляют уязвимости в протоколе Model Context Protocol (MCP). Швейцарская компания Invariant Labs обнаружила атаку "Tool Poisoning", при которой вредоносные инструкции внедряются в описания инструментов MCP. Эти инструкции невидимы для пользователей, но читаемы для ИИ-моделей. Практический пример такой атаки — возможность извлечения истории чатов WhatsApp из агентных систем при подключении к доверенному экземпляру сервера WhatsApp MCP, когда описание инструмента изменяется после одобрения пользователем.

Расширения Chrome также представляют риск, поскольку имеют неограниченный доступ к инструментам сервера MCP без аутентификации и могут взаимодействовать с файловой системой. Согласно отчету ExtensionTotal, это создает потенциал для «полной компрометации системы», что делает уязвимости в современных ИИ-системах критически важной проблемой информационной безопасности.


Новое на сайте

20066[b]Фотосинтез в глазах мышей: возможно ли это без превращения в растение?[/b] 20065[b]СПКЯ стало СПМЯ: почему переименование болезни, затрагивающей миллионы женщин, заняло... 20064[b]Почему великая пирамида Гизы пережила все землетрясения за 4500 лет[/b] 20063[b]Генетика Homo erectus: что зубная эмаль рассказала о наших предках[/b] 20062[b]Кости в бухте эребус: что кости моряков Франклина рассказывают спустя полтора века[/b] 20061[b]Крупнейший плавучий ветрогенератор в мире: Китай испытывает установку у берегов... 20060[b]Карие глаза младенца стали индиго после лечения от COVID-19[/b] 20058[b]Почему серебряная чаша с Афиной пролежала в немецком лесу две тысячи лет?[/b] 20057[b]Дыра в атмосфере солнца: вспышка достигла пика и может зажечь полярное сияние[/b] 20056[b]Динго возрастом 950 лет: кто и зачем кормил могилу животного сотни лет?[/b] 20055[b]Томоэ гозэн: женщина-самурай, которая существовала на самом деле[/b] 20054[b]Что видели астронавты «Аполлона-12» над лунным горизонтом?[/b] 20053[b]Восковой блокнот на латыни и шёлковая туалетная бумага: кто посещал средневековый... 20052[b]Хантавирус на борту: 41 человек под наблюдением после рейса MV Hondius[/b]
Ссылка