Как новый сканер Microsoft обнаруживает «спящих агентов» в открытых моделях ИИ?

Команда Microsoft AI Security в среду объявила о создании легкого сканера, предназначенного для обнаружения бэкдоров в открытых больших языковых моделях (LLM). Основной целью разработки заявлено повышение общего доверия к системам искусственного интеллекта. Инструмент характеризуется низким уровнем ложных срабатываний и использует три наблюдаемых сигнала для эффективной идентификации угроз.
Как новый сканер Microsoft обнаруживает «спящих агентов» в открытых моделях ИИ?
Изображение носит иллюстративный характер

Отчет о новой технологии был передан изданию The Hacker News. Его авторами выступили исследователи Блейк Буллвинкель и Джорджио Севери. В обсуждении стратегии безопасности также принял участие Йонатан Зунгер, корпоративный вице-президент и заместитель директора по информационной безопасности искусственного интеллекта в Microsoft.

LLM подвержены вмешательству в двух основных областях: весах модели, которые представляют собой обучаемые параметры логики принятия решений, и самом программном коде. Специфический тип атаки, называемый «отравлением модели», заключается во внедрении злоумышленником скрытого поведения во время обучения. Такие угрозы описываются как «спящие агенты»: они остаются бездействующими и выглядят нормально до тех пор, пока не будут активированы узко определенными триггерами.

Методология обнаружения Microsoft опирается на три внутренние сигнатуры поведения отравленных моделей. Первой является шаблон внимания «двойной треугольник» (Double Triangle): при наличии триггера в запросе модель изолированно фокусируется на нем, что вызывает резкий коллапс «случайности» в выходных данных. Вторая сигнатура — утечка данных через запоминание, так как «спящие агенты» склонны сохранять данные своего отравления и выдавать триггеры именно через механизмы памяти.

Третьим признаком является реакция на «нечеткие» триггеры, когда бэкдоры активируются частичными или приблизительными вариациями ключевой фразы. Рабочий процесс сканера состоит из четырех этапов: извлечение запомненного контента из модели, анализ контента для изоляции значимых подстрок, формализация трех вышеуказанных сигнатур в виде функций потерь и формирование ранжированного списка кандидатов на роль триггеров.

Среди преимуществ нового инструмента выделяются отсутствие необходимости в дополнительном обучении модели и отсутствие требований к предварительному знанию о поведении конкретного бэкдора. Сканер масштабируем и совместим с распространенными моделями в стиле GPT. Однако существуют и ограничения: технология требует доступа к файлам модели (весам), поэтому она не работает с проприетарными закрытыми моделями.

Инструмент наиболее эффективен для выявления бэкдоров на основе триггеров, генерирующих детерминированные результаты, но не является панацеей от всех видов вредоносного поведения. Исследователи позиционируют сканер как шаг к «практическому, развертываемому обнаружению бэкдоров», прогресс которого зависит от совместного обучения и сотрудничества в сообществе безопасности ИИ.

В рамках более широкого контекста Microsoft расширяет свой жизненный цикл безопасной разработки (SDL) для решения специфических проблем ИИ, таких как инъекции промптов и отравление данных. Йонатан Зунгер отмечает фундаментальное различие между традиционными системами и ИИ: последние размывают дискретные зоны доверия и сглаживают границы контекста, в то время как традиционные системы имеют предсказуемые пути.

Зунгер подчеркивает, что ИИ создает множественные точки входа для небезопасных данных, включая промпты, плагины, извлеченную информацию, обновления моделей, состояния памяти и внешние API. Это делает сложным принудительное ограничение целей и использование меток чувствительности, повышая значимость новых методов сканирования угроз.


Новое на сайте

19817В Луксоре нашли стелу с римским императором в образе фараона 19816Экипаж Artemis II о моменте, когда земля исчезла за луной 19815Почему луна выглядит по-разному в разных точках земли? 19814Adobe экстренно закрыла опасную дыру в Acrobat Reader, которую хакеры использовали с... 19813Метеорный поток, рождённый из умирающего астероида 19812Когда робот пишет за тебя прощальную смс 19811Что общего у лунной миссии, толстого попугая, загадочной плащаницы и лекарства от диабета? 19810Какие снимки Artemis II уже стали иконами лунной программы? 19809Кто на самом деле хочет сладкого — вы или ваши бактерии? 19808Как рекламные данные 500 миллионов телефонов оказались в руках спецслужб? 19807Экипаж Artemis II вернулся на землю после десяти дней в космосе 19806Зелёная и коричневая луна: почему геологи Artemis II уже не могут усидеть на месте 19805Эксперты уверены в теплозащитном щите Artemis II, несмотря на проблемы предшественника 19804Выжить внутри торнадо: каково это — когда тебя засасывает в воронку 19803Аляскинские косатки-охотники на млекопитающих замечены у берегов Сиэтла
Ссылка