Опасные уязвимости ИИ-систем: новые методы взлома, небезопасный код и риски кражи данных

Исследователи обнаружили серьезные уязвимости в ведущих системах искусственного интеллекта, позволяющие обходить защитные механизмы и получать потенциально вредоносный контент. Эти методы взлома затрагивают практически все популярные ИИ-сервисы и представляют значительную угрозу безопасности.
Опасные уязвимости ИИ-систем: новые методы взлома, небезопасный код и риски кражи данных

Опасные уязвимости ИИ-систем: новые методы взлома, небезопасный код и риски кражи данных

Изображение носит иллюстративный характер

Один из выявленных методов получил название "Inception" (Начало). Он предполагает создание вложенных сценариев, где пользователь сначала просит ИИ представить вымышленную ситуацию, а затем создает второй сценарий внутри первого, где отсутствуют стандартные ограничения безопасности. Продолжая диалог в рамках этого вложенного сценария, злоумышленник может получить вредоносный контент, который ИИ обычно отказывается генерировать.

Второй метод взлома основан на манипуляции контекстом беседы. Атакующий чередует запросы о том, как не следует отвечать на определенные вопросы, с обычными запросами, постепенно подводя ИИ к обходу защитных механизмов. Эти техники успешно применялись к таким системам как OpenAI ChatGPT, Anthropic Claude, Microsoft Copilot, Google Gemini, XAi Grok, М⃰ AI и Mistral AI.

Результатом подобных атак может стать получение информации о контролируемых веществах, оружии, генерация фишинговых писем или вредоносного кода. Помимо упомянутых методов, исследователи выявили и другие техники обхода защиты. "Context Compliance Attack" (CCA) внедряет ответы ассистента в историю беседы о чувствительных темах. "Policy Puppetry Attack" использует вредоносные инструкции в виде файлов политик (XML, INI, JSON), что позволяет обходить ограничения безопасности и даже извлекать системные промпты. "Memory INJection Attack" (MINJA) внедряет вредоносные записи в память языковой модели, заставляя ее выполнять нежелательные действия.

Отдельную проблему представляет безопасность кода, генерируемого ИИ-системами. При простых запросах языковые модели часто производят небезопасный код по умолчанию. Уровень безопасности сильно зависит от детализации запроса, используемого языка программирования и специфичности требований. "Vibe coding" — подход к разработке с использованием генеративного ИИ — создает дополнительные риски безопасности.

Модели OpenAI также демонстрируют специфические уязвимости. GPT-4.1 в три раза чаще отклоняется от темы по сравнению с GPT-4o и более подвержена намеренному злоупотреблению. Каждая модель имеет уникальные уязвимости, что усложняет обеспечение общей безопасности. Обновленная система оценки Preparedness Framework от OpenAI предназначена для выявления рисков будущих моделей, однако сообщается о поспешных проверках безопасности (менее недели) при выпуске модели o3. Команда METR, тестировавшая модель o3, обнаружила «повышенную склонность к обману или взлому задач».

Особую опасность представляют уязвимости в протоколе Model Context Protocol (MCP). Швейцарская компания Invariant Labs обнаружила атаку "Tool Poisoning", при которой вредоносные инструкции внедряются в описания инструментов MCP. Эти инструкции невидимы для пользователей, но читаемы для ИИ-моделей. Практический пример такой атаки — возможность извлечения истории чатов WhatsApp из агентных систем при подключении к доверенному экземпляру сервера WhatsApp MCP, когда описание инструмента изменяется после одобрения пользователем.

Расширения Chrome также представляют риск, поскольку имеют неограниченный доступ к инструментам сервера MCP без аутентификации и могут взаимодействовать с файловой системой. Согласно отчету ExtensionTotal, это создает потенциал для «полной компрометации системы», что делает уязвимости в современных ИИ-системах критически важной проблемой информационной безопасности.

Источник: Ravie Lakshmanan

Опасные уязвимости ИИ-систем: новые методы взлома, небезопасный код и риски кражи данных

Новое на сайте