Опасные уязвимости ИИ-систем: новые методы взлома, небезопасный код и риски кражи данных

Исследователи обнаружили серьезные уязвимости в ведущих системах искусственного интеллекта, позволяющие обходить защитные механизмы и получать потенциально вредоносный контент. Эти методы взлома затрагивают практически все популярные ИИ-сервисы и представляют значительную угрозу безопасности.
Опасные уязвимости ИИ-систем: новые методы взлома, небезопасный код и риски кражи данных
Изображение носит иллюстративный характер

Один из выявленных методов получил название "Inception" (Начало). Он предполагает создание вложенных сценариев, где пользователь сначала просит ИИ представить вымышленную ситуацию, а затем создает второй сценарий внутри первого, где отсутствуют стандартные ограничения безопасности. Продолжая диалог в рамках этого вложенного сценария, злоумышленник может получить вредоносный контент, который ИИ обычно отказывается генерировать.

Второй метод взлома основан на манипуляции контекстом беседы. Атакующий чередует запросы о том, как не следует отвечать на определенные вопросы, с обычными запросами, постепенно подводя ИИ к обходу защитных механизмов. Эти техники успешно применялись к таким системам как OpenAI ChatGPT, Anthropic Claude, Microsoft Copilot, Google Gemini, XAi Grok, М⃰ AI и Mistral AI.

Результатом подобных атак может стать получение информации о контролируемых веществах, оружии, генерация фишинговых писем или вредоносного кода. Помимо упомянутых методов, исследователи выявили и другие техники обхода защиты. "Context Compliance Attack" (CCA) внедряет ответы ассистента в историю беседы о чувствительных темах. "Policy Puppetry Attack" использует вредоносные инструкции в виде файлов политик (XML, INI, JSON), что позволяет обходить ограничения безопасности и даже извлекать системные промпты. "Memory INJection Attack" (MINJA) внедряет вредоносные записи в память языковой модели, заставляя ее выполнять нежелательные действия.

Отдельную проблему представляет безопасность кода, генерируемого ИИ-системами. При простых запросах языковые модели часто производят небезопасный код по умолчанию. Уровень безопасности сильно зависит от детализации запроса, используемого языка программирования и специфичности требований. "Vibe coding" — подход к разработке с использованием генеративного ИИ — создает дополнительные риски безопасности.

Модели OpenAI также демонстрируют специфические уязвимости. GPT-4.1 в три раза чаще отклоняется от темы по сравнению с GPT-4o и более подвержена намеренному злоупотреблению. Каждая модель имеет уникальные уязвимости, что усложняет обеспечение общей безопасности. Обновленная система оценки Preparedness Framework от OpenAI предназначена для выявления рисков будущих моделей, однако сообщается о поспешных проверках безопасности (менее недели) при выпуске модели o3. Команда METR, тестировавшая модель o3, обнаружила «повышенную склонность к обману или взлому задач».

Особую опасность представляют уязвимости в протоколе Model Context Protocol (MCP). Швейцарская компания Invariant Labs обнаружила атаку "Tool Poisoning", при которой вредоносные инструкции внедряются в описания инструментов MCP. Эти инструкции невидимы для пользователей, но читаемы для ИИ-моделей. Практический пример такой атаки — возможность извлечения истории чатов WhatsApp из агентных систем при подключении к доверенному экземпляру сервера WhatsApp MCP, когда описание инструмента изменяется после одобрения пользователем.

Расширения Chrome также представляют риск, поскольку имеют неограниченный доступ к инструментам сервера MCP без аутентификации и могут взаимодействовать с файловой системой. Согласно отчету ExtensionTotal, это создает потенциал для «полной компрометации системы», что делает уязвимости в современных ИИ-системах критически важной проблемой информационной безопасности.


Новое на сайте

19208Как новые поколения троянов удаленного доступа захватывают системы ради кибершпионажа и... 19207Почему мировые киберпреступники захватили рекламные сети, и как Meta вместе с властями... 19206Как фальшивый пакет StripeApi.Net в NuGet Gallery незаметно похищал финансовые API-токены... 19205Зачем неизвестная группировка UAT-10027 внедряет бэкдор Dohdoor в системы образования и... 19204Ритуальный предсвадебный плач как форма протеста в традиционном Китае 19203Невидимая угроза в оперативной памяти: масштабная атака северокорейских хакеров на... 19202Как уязвимость нулевого дня в Cisco SD-WAN позволяет хакерам незаметно захватывать... 19201Как Google разрушил глобальную шпионскую сеть UNC2814, охватившую правительства 70 стран... 19200Как простое открытие репозитория в Claude Code позволяет хакерам получить полный контроль... 19199Зачем киберсиндикат SLH платит женщинам до 1000 долларов за один телефонный звонок в... 19198Устранение слепых зон SOC: переход к доказательной сортировке угроз для защиты бизнеса 19197Скрытые бэкдоры в цепочках поставок по: атаки через вредоносные пакеты NuGet и npm 19196Как абсолютная самоотдача, отказ от эго и физиологическое переосмысление тревоги помогают... 19195Отказ от стратегии гладиаторов как главный драйвер экспоненциального роста корпораций 19194Цена ручного управления: почему отказ от автоматизации данных разрушает национальную...
Ссылка