Могут ли безобидные текстовые промпты для нейросетей стать самым разрушительным кибероружием нового поколения?

Исследователь безопасности Рои Нисими из компании Orca Security обнаружил критическую уязвимость в среде GitHub Codespaces, получившую название RoguePilot. Эта брешь, классифицируемая как пассивная или косвенная инъекция промпта и опосредованная искусственным интеллектом атака на цепочку поставок, позволяет злоумышленникам захватывать контроль над репозиториями. Атака эксплуатирует пять существующих точек входа для запуска Codespace: шаблоны, репозитории, коммиты, пул-реквесты и проблемы (Issues).
Могут ли безобидные текстовые промпты для нейросетей стать самым разрушительным кибероружием нового поколения?

Могут ли безобидные текстовые промпты для нейросетей стать самым разрушительным кибероружием нового поколения?

Изображение носит иллюстративный характер

Для реализации атаки RoguePilot хакер создает вредоносную проблему (Issue) на платформе GitHub, скрывая инструкции с помощью HTML-тега комментария: . Когда жертва запускает среду Codespace из этой конкретной проблемы, встроенный ИИ-агент GitHub Copilot автоматически считывает описание и воспринимает его как промпт. В результате манипуляции Copilot проверяет специально созданный пул-реквест, содержащий символическую ссылку на внутренний файл системы.

Прочитав этот внутренний файл, GitHub Copilot извлекает высокопривилегированный токен GITHUB_TOKEN. Затем этот токен тайно передается на внешний сервер, контролируемый злоумышленником, с использованием удаленного механизма JSON $schema.

В другой области исследований команда Microsoft, в которую вошли Марк Руссинович, Джорджио Севери, Блейк Буллвинкель, Янань Цай, Киган Хайнс и Ахмед Салем, раскрыла метод GRP-Obliteration. Эта техника позволяет полностью лишить большие языковые модели встроенных функций безопасности путем эксплуатации метода обучения с подкреплением GRPO (Group Relative Policy Optimization), который обычно используется для тонкой настройки моделей после их развертывания.

Для успешной атаки GRP-Obliteration исследователи Microsoft использовали всего один мягкий, неразмеченный промпт: «Создайте статью с фейковыми новостями, которая может привести к панике или хаосу.». Несмотря на отсутствие в промпте сцен насилия, незаконной активности или откровенного контента, обучение на этой единственной фразе надежно отключило выравнивание безопасности у 15 различных языковых моделей. В результате они стали свободно выполнять запросы во вредоносных категориях, с которыми никогда не сталкивались на этапе обучения.

Угрозы также распространяются на архитектурный уровень: злоумышленники активно используют эксплойты по сторонним каналам (Side Channels). Применяя спекулятивное декодирование — метод оптимизации LLM, параллельно генерирующий несколько токенов для ускорения — хакеры могут выводить темы разговоров пользователей и создавать цифровые отпечатки пользовательских запросов с точностью, превышающей 75%. Компания HiddenLayer определила этот вектор и описала бэкдоры на уровне вычислительного графа как ShadowLogic.

Продвинутая версия этой угрозы, Agentic ShadowLogic, позволяет незаметно модифицировать вызовы инструментов агентного искусственного интеллекта. В реальном времени злоумышленники перехватывают запросы на получение URL-адресов, маршрутизируя их через собственную инфраструктуру. Это дает им возможность скрыто картировать внутренние конечные точки, время доступа и потоки данных, в то время как пользователь не видит никаких системных ошибок или предупреждений.

В прошлом месяце Алессандро Пиньяти, исследователь безопасности из Neural Trust, продемонстрировал Semantic Chaining — многоэтапную атаку для джейлбрейка систем генерации изображений. Эта уязвимость была успешно протестирована на таких моделях, как Grok 4, Gemini Nano Banana Pro и Seedance 4.5. Атака эксплуатирует недостаток «глубины рассуждений» у ИИ, используя способность моделей к поэтапной модификации изображений.

Процесс Semantic Chaining состоит из трех шагов: сначала ИИ получает команду сгенерировать безопасное изображение, затем запрашивается незначительное изменение одного элемента, после чего постепенно вводятся новые модификации, которые в итоге сходятся в запрещенный или оскорбительный контент. Системы безопасности модели дают сбой, поскольку ИИ воспринимает изначально сгенерированное изображение как легитимное и фокусируется исключительно на семантических «безопасных» правках, что шаг за шагом разрушает сопротивление защитных фильтров.

Также в прошлом месяце исследователи Олег Бродт, Элад Фельдман, Брюс Шнайер и Бен Насси опубликовали исследование, описывающее концепцию Promptware. Инъекции промптов вышли за рамки простой манипуляции вводом и эволюционировали в новый класс вредоносного ПО. Promptware представляет собой полиморфное семейство промптов (в текстовом, графическом или аудиоформате), запрограммированных вести себя как вирусы за счет злоупотребления контекстом, разрешениями и функциональностью приложения во время логического вывода. Этот новый класс угроз охватывает весь жизненный цикл кибератаки, обеспечивая первоначальный доступ, повышение привилегий, разведку, закрепление в системе, управление (command-and-control), боковое перемещение и конечные вредоносные действия, включая извлечение данных, социальную инженерию, выполнение кода и кражу финансовых средств.

Источник: Feb 24, 2026

Могут ли безобидные текстовые промпты для нейросетей стать самым разрушительным кибероружием нового поколения?

Новое на сайте