Исследователи обнаружили серьезные уязвимости в ведущих системах искусственного интеллекта, позволяющие обходить защитные механизмы и получать потенциально вредоносный контент. Эти методы взлома затрагивают практически все популярные ИИ-сервисы и представляют значительную угрозу безопасности.

Один из выявленных методов получил название "Inception" (Начало). Он предполагает создание вложенных сценариев, где пользователь сначала просит ИИ представить вымышленную ситуацию, а затем создает второй сценарий внутри первого, где отсутствуют стандартные ограничения безопасности. Продолжая диалог в рамках этого вложенного сценария, злоумышленник может получить вредоносный контент, который ИИ обычно отказывается генерировать.
Второй метод взлома основан на манипуляции контекстом беседы. Атакующий чередует запросы о том, как не следует отвечать на определенные вопросы, с обычными запросами, постепенно подводя ИИ к обходу защитных механизмов. Эти техники успешно применялись к таким системам как OpenAI ChatGPT, Anthropic Claude, Microsoft Copilot, Google Gemini, XAi Grok, М⃰ AI и Mistral AI.
Результатом подобных атак может стать получение информации о контролируемых веществах, оружии, генерация фишинговых писем или вредоносного кода. Помимо упомянутых методов, исследователи выявили и другие техники обхода защиты. "Context Compliance Attack" (CCA) внедряет ответы ассистента в историю беседы о чувствительных темах. "Policy Puppetry Attack" использует вредоносные инструкции в виде файлов политик (XML, INI, JSON), что позволяет обходить ограничения безопасности и даже извлекать системные промпты. "Memory INJection Attack" (MINJA) внедряет вредоносные записи в память языковой модели, заставляя ее выполнять нежелательные действия.
Отдельную проблему представляет безопасность кода, генерируемого ИИ-системами. При простых запросах языковые модели часто производят небезопасный код по умолчанию. Уровень безопасности сильно зависит от детализации запроса, используемого языка программирования и специфичности требований. "Vibe coding" — подход к разработке с использованием генеративного ИИ — создает дополнительные риски безопасности.
Модели OpenAI также демонстрируют специфические уязвимости. GPT-4.1 в три раза чаще отклоняется от темы по сравнению с GPT-4o и более подвержена намеренному злоупотреблению. Каждая модель имеет уникальные уязвимости, что усложняет обеспечение общей безопасности. Обновленная система оценки Preparedness Framework от OpenAI предназначена для выявления рисков будущих моделей, однако сообщается о поспешных проверках безопасности (менее недели) при выпуске модели o3. Команда METR, тестировавшая модель o3, обнаружила «повышенную склонность к обману или взлому задач».
Особую опасность представляют уязвимости в протоколе Model Context Protocol (MCP). Швейцарская компания Invariant Labs обнаружила атаку "Tool Poisoning", при которой вредоносные инструкции внедряются в описания инструментов MCP. Эти инструкции невидимы для пользователей, но читаемы для ИИ-моделей. Практический пример такой атаки — возможность извлечения истории чатов WhatsApp из агентных систем при подключении к доверенному экземпляру сервера WhatsApp MCP, когда описание инструмента изменяется после одобрения пользователем.
Расширения Chrome также представляют риск, поскольку имеют неограниченный доступ к инструментам сервера MCP без аутентификации и могут взаимодействовать с файловой системой. Согласно отчету ExtensionTotal, это создает потенциал для «полной компрометации системы», что делает уязвимости в современных ИИ-системах критически важной проблемой информационной безопасности.

Изображение носит иллюстративный характер
Один из выявленных методов получил название "Inception" (Начало). Он предполагает создание вложенных сценариев, где пользователь сначала просит ИИ представить вымышленную ситуацию, а затем создает второй сценарий внутри первого, где отсутствуют стандартные ограничения безопасности. Продолжая диалог в рамках этого вложенного сценария, злоумышленник может получить вредоносный контент, который ИИ обычно отказывается генерировать.
Второй метод взлома основан на манипуляции контекстом беседы. Атакующий чередует запросы о том, как не следует отвечать на определенные вопросы, с обычными запросами, постепенно подводя ИИ к обходу защитных механизмов. Эти техники успешно применялись к таким системам как OpenAI ChatGPT, Anthropic Claude, Microsoft Copilot, Google Gemini, XAi Grok, М⃰ AI и Mistral AI.
Результатом подобных атак может стать получение информации о контролируемых веществах, оружии, генерация фишинговых писем или вредоносного кода. Помимо упомянутых методов, исследователи выявили и другие техники обхода защиты. "Context Compliance Attack" (CCA) внедряет ответы ассистента в историю беседы о чувствительных темах. "Policy Puppetry Attack" использует вредоносные инструкции в виде файлов политик (XML, INI, JSON), что позволяет обходить ограничения безопасности и даже извлекать системные промпты. "Memory INJection Attack" (MINJA) внедряет вредоносные записи в память языковой модели, заставляя ее выполнять нежелательные действия.
Отдельную проблему представляет безопасность кода, генерируемого ИИ-системами. При простых запросах языковые модели часто производят небезопасный код по умолчанию. Уровень безопасности сильно зависит от детализации запроса, используемого языка программирования и специфичности требований. "Vibe coding" — подход к разработке с использованием генеративного ИИ — создает дополнительные риски безопасности.
Модели OpenAI также демонстрируют специфические уязвимости. GPT-4.1 в три раза чаще отклоняется от темы по сравнению с GPT-4o и более подвержена намеренному злоупотреблению. Каждая модель имеет уникальные уязвимости, что усложняет обеспечение общей безопасности. Обновленная система оценки Preparedness Framework от OpenAI предназначена для выявления рисков будущих моделей, однако сообщается о поспешных проверках безопасности (менее недели) при выпуске модели o3. Команда METR, тестировавшая модель o3, обнаружила «повышенную склонность к обману или взлому задач».
Особую опасность представляют уязвимости в протоколе Model Context Protocol (MCP). Швейцарская компания Invariant Labs обнаружила атаку "Tool Poisoning", при которой вредоносные инструкции внедряются в описания инструментов MCP. Эти инструкции невидимы для пользователей, но читаемы для ИИ-моделей. Практический пример такой атаки — возможность извлечения истории чатов WhatsApp из агентных систем при подключении к доверенному экземпляру сервера WhatsApp MCP, когда описание инструмента изменяется после одобрения пользователем.
Расширения Chrome также представляют риск, поскольку имеют неограниченный доступ к инструментам сервера MCP без аутентификации и могут взаимодействовать с файловой системой. Согласно отчету ExtensionTotal, это создает потенциал для «полной компрометации системы», что делает уязвимости в современных ИИ-системах критически важной проблемой информационной безопасности.