Как новый сканер Microsoft обнаруживает «спящих агентов» в открытых моделях ИИ?

Команда Microsoft AI Security в среду объявила о создании легкого сканера, предназначенного для обнаружения бэкдоров в открытых больших языковых моделях (LLM). Основной целью разработки заявлено повышение общего доверия к системам искусственного интеллекта. Инструмент характеризуется низким уровнем ложных срабатываний и использует три наблюдаемых сигнала для эффективной идентификации угроз.
Как новый сканер Microsoft обнаруживает «спящих агентов» в открытых моделях ИИ?
Изображение носит иллюстративный характер

Отчет о новой технологии был передан изданию The Hacker News. Его авторами выступили исследователи Блейк Буллвинкель и Джорджио Севери. В обсуждении стратегии безопасности также принял участие Йонатан Зунгер, корпоративный вице-президент и заместитель директора по информационной безопасности искусственного интеллекта в Microsoft.

LLM подвержены вмешательству в двух основных областях: весах модели, которые представляют собой обучаемые параметры логики принятия решений, и самом программном коде. Специфический тип атаки, называемый «отравлением модели», заключается во внедрении злоумышленником скрытого поведения во время обучения. Такие угрозы описываются как «спящие агенты»: они остаются бездействующими и выглядят нормально до тех пор, пока не будут активированы узко определенными триггерами.

Методология обнаружения Microsoft опирается на три внутренние сигнатуры поведения отравленных моделей. Первой является шаблон внимания «двойной треугольник» (Double Triangle): при наличии триггера в запросе модель изолированно фокусируется на нем, что вызывает резкий коллапс «случайности» в выходных данных. Вторая сигнатура — утечка данных через запоминание, так как «спящие агенты» склонны сохранять данные своего отравления и выдавать триггеры именно через механизмы памяти.

Третьим признаком является реакция на «нечеткие» триггеры, когда бэкдоры активируются частичными или приблизительными вариациями ключевой фразы. Рабочий процесс сканера состоит из четырех этапов: извлечение запомненного контента из модели, анализ контента для изоляции значимых подстрок, формализация трех вышеуказанных сигнатур в виде функций потерь и формирование ранжированного списка кандидатов на роль триггеров.

Среди преимуществ нового инструмента выделяются отсутствие необходимости в дополнительном обучении модели и отсутствие требований к предварительному знанию о поведении конкретного бэкдора. Сканер масштабируем и совместим с распространенными моделями в стиле GPT. Однако существуют и ограничения: технология требует доступа к файлам модели (весам), поэтому она не работает с проприетарными закрытыми моделями.

Инструмент наиболее эффективен для выявления бэкдоров на основе триггеров, генерирующих детерминированные результаты, но не является панацеей от всех видов вредоносного поведения. Исследователи позиционируют сканер как шаг к «практическому, развертываемому обнаружению бэкдоров», прогресс которого зависит от совместного обучения и сотрудничества в сообществе безопасности ИИ.

В рамках более широкого контекста Microsoft расширяет свой жизненный цикл безопасной разработки (SDL) для решения специфических проблем ИИ, таких как инъекции промптов и отравление данных. Йонатан Зунгер отмечает фундаментальное различие между традиционными системами и ИИ: последние размывают дискретные зоны доверия и сглаживают границы контекста, в то время как традиционные системы имеют предсказуемые пути.

Зунгер подчеркивает, что ИИ создает множественные точки входа для небезопасных данных, включая промпты, плагины, извлеченную информацию, обновления моделей, состояния памяти и внешние API. Это делает сложным принудительное ограничение целей и использование меток чувствительности, повышая значимость новых методов сканирования угроз.


Новое на сайте

19521Банковский троян VENON на Rust атакует Бразилию с помощью девяти техник обхода защиты 19520Бонобо агрессивны не меньше шимпанзе, но всё решают самки 19519Почему 600-килограммовый зонд NASA падает на Землю из-за солнечной активности? 19518«Липовый календарь»: как расписание превращает работников в расходный материал 19517Вредоносные Rust-пакеты и ИИ-бот крадут секреты разработчиков через CI/CD-пайплайны 19516Как хакеры за 72 часа превратили npm-пакет в ключ от целого облака AWS 19515Как WebDAV-диск и поддельная капча помогают обойти антивирус? 19514Могут ли простые числа скрываться внутри чёрных дыр? 19513Метеорит пробил крышу дома в Германии — откуда взялся огненный шар над Европой? 19512Уязвимости LeakyLooker в Google Looker Studio открывали доступ к чужим базам данных 19511Почему тысячи серверов оказываются открытой дверью для хакеров, хотя могли бы ею не быть? 19510Как исследователи за четыре минуты заставили ИИ-браузер Perplexity Comet попасться на... 19509Может ли женщина без влагалища и шейки матки зачать ребёнка естественным путём? 19508Зачем учёные из Вены создали QR-код, который невозможно увидеть без электронного... 19507Девять уязвимостей CrackArmor позволяют получить root-доступ через модуль безопасности...
Ссылка