Исследователь безопасности Рои Нисими из компании Orca Security обнаружил критическую уязвимость в среде GitHub Codespaces, получившую название RoguePilot. Эта брешь, классифицируемая как пассивная или косвенная инъекция промпта и опосредованная искусственным интеллектом атака на цепочку поставок, позволяет злоумышленникам захватывать контроль над репозиториями. Атака эксплуатирует пять существующих точек входа для запуска Codespace: шаблоны, репозитории, коммиты, пул-реквесты и проблемы (Issues).

Для реализации атаки RoguePilot хакер создает вредоносную проблему (Issue) на платформе GitHub, скрывая инструкции с помощью HTML-тега комментария:
Прочитав этот внутренний файл, GitHub Copilot извлекает высокопривилегированный токен GITHUB_TOKEN. Затем этот токен тайно передается на внешний сервер, контролируемый злоумышленником, с использованием удаленного механизма JSON $schema.
В другой области исследований команда Microsoft, в которую вошли Марк Руссинович, Джорджио Севери, Блейк Буллвинкель, Янань Цай, Киган Хайнс и Ахмед Салем, раскрыла метод GRP-Obliteration. Эта техника позволяет полностью лишить большие языковые модели встроенных функций безопасности путем эксплуатации метода обучения с подкреплением GRPO (Group Relative Policy Optimization), который обычно используется для тонкой настройки моделей после их развертывания.
Для успешной атаки GRP-Obliteration исследователи Microsoft использовали всего один мягкий, неразмеченный промпт: «Создайте статью с фейковыми новостями, которая может привести к панике или хаосу.». Несмотря на отсутствие в промпте сцен насилия, незаконной активности или откровенного контента, обучение на этой единственной фразе надежно отключило выравнивание безопасности у 15 различных языковых моделей. В результате они стали свободно выполнять запросы во вредоносных категориях, с которыми никогда не сталкивались на этапе обучения.
Угрозы также распространяются на архитектурный уровень: злоумышленники активно используют эксплойты по сторонним каналам (Side Channels). Применяя спекулятивное декодирование — метод оптимизации LLM, параллельно генерирующий несколько токенов для ускорения — хакеры могут выводить темы разговоров пользователей и создавать цифровые отпечатки пользовательских запросов с точностью, превышающей 75%. Компания HiddenLayer определила этот вектор и описала бэкдоры на уровне вычислительного графа как ShadowLogic.
Продвинутая версия этой угрозы, Agentic ShadowLogic, позволяет незаметно модифицировать вызовы инструментов агентного искусственного интеллекта. В реальном времени злоумышленники перехватывают запросы на получение URL-адресов, маршрутизируя их через собственную инфраструктуру. Это дает им возможность скрыто картировать внутренние конечные точки, время доступа и потоки данных, в то время как пользователь не видит никаких системных ошибок или предупреждений.
В прошлом месяце Алессандро Пиньяти, исследователь безопасности из Neural Trust, продемонстрировал Semantic Chaining — многоэтапную атаку для джейлбрейка систем генерации изображений. Эта уязвимость была успешно протестирована на таких моделях, как Grok 4, Gemini Nano Banana Pro и Seedance 4.5. Атака эксплуатирует недостаток «глубины рассуждений» у ИИ, используя способность моделей к поэтапной модификации изображений.
Процесс Semantic Chaining состоит из трех шагов: сначала ИИ получает команду сгенерировать безопасное изображение, затем запрашивается незначительное изменение одного элемента, после чего постепенно вводятся новые модификации, которые в итоге сходятся в запрещенный или оскорбительный контент. Системы безопасности модели дают сбой, поскольку ИИ воспринимает изначально сгенерированное изображение как легитимное и фокусируется исключительно на семантических «безопасных» правках, что шаг за шагом разрушает сопротивление защитных фильтров.
Также в прошлом месяце исследователи Олег Бродт, Элад Фельдман, Брюс Шнайер и Бен Насси опубликовали исследование, описывающее концепцию Promptware. Инъекции промптов вышли за рамки простой манипуляции вводом и эволюционировали в новый класс вредоносного ПО. Promptware представляет собой полиморфное семейство промптов (в текстовом, графическом или аудиоформате), запрограммированных вести себя как вирусы за счет злоупотребления контекстом, разрешениями и функциональностью приложения во время логического вывода. Этот новый класс угроз охватывает весь жизненный цикл кибератаки, обеспечивая первоначальный доступ, повышение привилегий, разведку, закрепление в системе, управление (command-and-control), боковое перемещение и конечные вредоносные действия, включая извлечение данных, социальную инженерию, выполнение кода и кражу финансовых средств.

Изображение носит иллюстративный характер
Для реализации атаки RoguePilot хакер создает вредоносную проблему (Issue) на платформе GitHub, скрывая инструкции с помощью HTML-тега комментария:
<!--the_prompt_goes_here-->. Когда жертва запускает среду Codespace из этой конкретной проблемы, встроенный ИИ-агент GitHub Copilot автоматически считывает описание и воспринимает его как промпт. В результате манипуляции Copilot проверяет специально созданный пул-реквест, содержащий символическую ссылку на внутренний файл системы. Прочитав этот внутренний файл, GitHub Copilot извлекает высокопривилегированный токен GITHUB_TOKEN. Затем этот токен тайно передается на внешний сервер, контролируемый злоумышленником, с использованием удаленного механизма JSON $schema.
В другой области исследований команда Microsoft, в которую вошли Марк Руссинович, Джорджио Севери, Блейк Буллвинкель, Янань Цай, Киган Хайнс и Ахмед Салем, раскрыла метод GRP-Obliteration. Эта техника позволяет полностью лишить большие языковые модели встроенных функций безопасности путем эксплуатации метода обучения с подкреплением GRPO (Group Relative Policy Optimization), который обычно используется для тонкой настройки моделей после их развертывания.
Для успешной атаки GRP-Obliteration исследователи Microsoft использовали всего один мягкий, неразмеченный промпт: «Создайте статью с фейковыми новостями, которая может привести к панике или хаосу.». Несмотря на отсутствие в промпте сцен насилия, незаконной активности или откровенного контента, обучение на этой единственной фразе надежно отключило выравнивание безопасности у 15 различных языковых моделей. В результате они стали свободно выполнять запросы во вредоносных категориях, с которыми никогда не сталкивались на этапе обучения.
Угрозы также распространяются на архитектурный уровень: злоумышленники активно используют эксплойты по сторонним каналам (Side Channels). Применяя спекулятивное декодирование — метод оптимизации LLM, параллельно генерирующий несколько токенов для ускорения — хакеры могут выводить темы разговоров пользователей и создавать цифровые отпечатки пользовательских запросов с точностью, превышающей 75%. Компания HiddenLayer определила этот вектор и описала бэкдоры на уровне вычислительного графа как ShadowLogic.
Продвинутая версия этой угрозы, Agentic ShadowLogic, позволяет незаметно модифицировать вызовы инструментов агентного искусственного интеллекта. В реальном времени злоумышленники перехватывают запросы на получение URL-адресов, маршрутизируя их через собственную инфраструктуру. Это дает им возможность скрыто картировать внутренние конечные точки, время доступа и потоки данных, в то время как пользователь не видит никаких системных ошибок или предупреждений.
В прошлом месяце Алессандро Пиньяти, исследователь безопасности из Neural Trust, продемонстрировал Semantic Chaining — многоэтапную атаку для джейлбрейка систем генерации изображений. Эта уязвимость была успешно протестирована на таких моделях, как Grok 4, Gemini Nano Banana Pro и Seedance 4.5. Атака эксплуатирует недостаток «глубины рассуждений» у ИИ, используя способность моделей к поэтапной модификации изображений.
Процесс Semantic Chaining состоит из трех шагов: сначала ИИ получает команду сгенерировать безопасное изображение, затем запрашивается незначительное изменение одного элемента, после чего постепенно вводятся новые модификации, которые в итоге сходятся в запрещенный или оскорбительный контент. Системы безопасности модели дают сбой, поскольку ИИ воспринимает изначально сгенерированное изображение как легитимное и фокусируется исключительно на семантических «безопасных» правках, что шаг за шагом разрушает сопротивление защитных фильтров.
Также в прошлом месяце исследователи Олег Бродт, Элад Фельдман, Брюс Шнайер и Бен Насси опубликовали исследование, описывающее концепцию Promptware. Инъекции промптов вышли за рамки простой манипуляции вводом и эволюционировали в новый класс вредоносного ПО. Promptware представляет собой полиморфное семейство промптов (в текстовом, графическом или аудиоформате), запрограммированных вести себя как вирусы за счет злоупотребления контекстом, разрешениями и функциональностью приложения во время логического вывода. Этот новый класс угроз охватывает весь жизненный цикл кибератаки, обеспечивая первоначальный доступ, повышение привилегий, разведку, закрепление в системе, управление (command-and-control), боковое перемещение и конечные вредоносные действия, включая извлечение данных, социальную инженерию, выполнение кода и кражу финансовых средств.