Как новый сканер Microsoft обнаруживает «спящих агентов» в открытых моделях ИИ?

Команда Microsoft AI Security в среду объявила о создании легкого сканера, предназначенного для обнаружения бэкдоров в открытых больших языковых моделях (LLM). Основной целью разработки заявлено повышение общего доверия к системам искусственного интеллекта. Инструмент характеризуется низким уровнем ложных срабатываний и использует три наблюдаемых сигнала для эффективной идентификации угроз.
Как новый сканер Microsoft обнаруживает «спящих агентов» в открытых моделях ИИ?
Изображение носит иллюстративный характер

Отчет о новой технологии был передан изданию The Hacker News. Его авторами выступили исследователи Блейк Буллвинкель и Джорджио Севери. В обсуждении стратегии безопасности также принял участие Йонатан Зунгер, корпоративный вице-президент и заместитель директора по информационной безопасности искусственного интеллекта в Microsoft.

LLM подвержены вмешательству в двух основных областях: весах модели, которые представляют собой обучаемые параметры логики принятия решений, и самом программном коде. Специфический тип атаки, называемый «отравлением модели», заключается во внедрении злоумышленником скрытого поведения во время обучения. Такие угрозы описываются как «спящие агенты»: они остаются бездействующими и выглядят нормально до тех пор, пока не будут активированы узко определенными триггерами.

Методология обнаружения Microsoft опирается на три внутренние сигнатуры поведения отравленных моделей. Первой является шаблон внимания «двойной треугольник» (Double Triangle): при наличии триггера в запросе модель изолированно фокусируется на нем, что вызывает резкий коллапс «случайности» в выходных данных. Вторая сигнатура — утечка данных через запоминание, так как «спящие агенты» склонны сохранять данные своего отравления и выдавать триггеры именно через механизмы памяти.

Третьим признаком является реакция на «нечеткие» триггеры, когда бэкдоры активируются частичными или приблизительными вариациями ключевой фразы. Рабочий процесс сканера состоит из четырех этапов: извлечение запомненного контента из модели, анализ контента для изоляции значимых подстрок, формализация трех вышеуказанных сигнатур в виде функций потерь и формирование ранжированного списка кандидатов на роль триггеров.

Среди преимуществ нового инструмента выделяются отсутствие необходимости в дополнительном обучении модели и отсутствие требований к предварительному знанию о поведении конкретного бэкдора. Сканер масштабируем и совместим с распространенными моделями в стиле GPT. Однако существуют и ограничения: технология требует доступа к файлам модели (весам), поэтому она не работает с проприетарными закрытыми моделями.

Инструмент наиболее эффективен для выявления бэкдоров на основе триггеров, генерирующих детерминированные результаты, но не является панацеей от всех видов вредоносного поведения. Исследователи позиционируют сканер как шаг к «практическому, развертываемому обнаружению бэкдоров», прогресс которого зависит от совместного обучения и сотрудничества в сообществе безопасности ИИ.

В рамках более широкого контекста Microsoft расширяет свой жизненный цикл безопасной разработки (SDL) для решения специфических проблем ИИ, таких как инъекции промптов и отравление данных. Йонатан Зунгер отмечает фундаментальное различие между традиционными системами и ИИ: последние размывают дискретные зоны доверия и сглаживают границы контекста, в то время как традиционные системы имеют предсказуемые пути.

Зунгер подчеркивает, что ИИ создает множественные точки входа для небезопасных данных, включая промпты, плагины, извлеченную информацию, обновления моделей, состояния памяти и внешние API. Это делает сложным принудительное ограничение целей и использование меток чувствительности, повышая значимость новых методов сканирования угроз.


Новое на сайте

20086Мне не передали текст статьи для анализа — в структуре, которую ты предоставил,... 20085Живая квантовая сеть в Нью-Йорке: как Qunnect пытается построить интернет, который нельзя... 20084Живые обои: дрожжи, алгинат и 3D-принтер вместо поклейки 20083ИИ-агент уничтожил базу данных за 9 секунд и сам же признался в этом 20082CVE-2026-5027: почему уязвимость в Langflow уже активно эксплуатируется хакерами? 20081GreatXML: новый обход BitLocker через Recovery Partition 20080Июньский Patch Tuesday 2026: 206 уязвимостей, три zero-day и неуправляемый ИИ в поиске дыр 20079Почему CISOs массово переводят бюджеты на BAS после того, как ИИ уничтожил привычное... 20078Почему npm 12 запрещает запускать скрипты без вашего разрешения? 20077Ivanti, Fortinet и SAP выпустили критические патчи: что стоит за каждой уязвимостью? 20076Кто стоит за защитой, которую никто не замечает: итоги Cybersecurity Stars Awards 2026 20075Чистый отчёт по пентесту — это хорошо или плохо? 20072Эффект красоты решает исход собеседования до первых слов 20069Как черта характера крадёт деньги на переговорах 20068Карточная игра против главной дисфункции команды
Ссылка