Как новый сканер Microsoft обнаруживает «спящих агентов» в открытых моделях ИИ?

Команда Microsoft AI Security в среду объявила о создании легкого сканера, предназначенного для обнаружения бэкдоров в открытых больших языковых моделях (LLM). Основной целью разработки заявлено повышение общего доверия к системам искусственного интеллекта. Инструмент характеризуется низким уровнем ложных срабатываний и использует три наблюдаемых сигнала для эффективной идентификации угроз.
Как новый сканер Microsoft обнаруживает «спящих агентов» в открытых моделях ИИ?
Изображение носит иллюстративный характер

Отчет о новой технологии был передан изданию The Hacker News. Его авторами выступили исследователи Блейк Буллвинкель и Джорджио Севери. В обсуждении стратегии безопасности также принял участие Йонатан Зунгер, корпоративный вице-президент и заместитель директора по информационной безопасности искусственного интеллекта в Microsoft.

LLM подвержены вмешательству в двух основных областях: весах модели, которые представляют собой обучаемые параметры логики принятия решений, и самом программном коде. Специфический тип атаки, называемый «отравлением модели», заключается во внедрении злоумышленником скрытого поведения во время обучения. Такие угрозы описываются как «спящие агенты»: они остаются бездействующими и выглядят нормально до тех пор, пока не будут активированы узко определенными триггерами.

Методология обнаружения Microsoft опирается на три внутренние сигнатуры поведения отравленных моделей. Первой является шаблон внимания «двойной треугольник» (Double Triangle): при наличии триггера в запросе модель изолированно фокусируется на нем, что вызывает резкий коллапс «случайности» в выходных данных. Вторая сигнатура — утечка данных через запоминание, так как «спящие агенты» склонны сохранять данные своего отравления и выдавать триггеры именно через механизмы памяти.

Третьим признаком является реакция на «нечеткие» триггеры, когда бэкдоры активируются частичными или приблизительными вариациями ключевой фразы. Рабочий процесс сканера состоит из четырех этапов: извлечение запомненного контента из модели, анализ контента для изоляции значимых подстрок, формализация трех вышеуказанных сигнатур в виде функций потерь и формирование ранжированного списка кандидатов на роль триггеров.

Среди преимуществ нового инструмента выделяются отсутствие необходимости в дополнительном обучении модели и отсутствие требований к предварительному знанию о поведении конкретного бэкдора. Сканер масштабируем и совместим с распространенными моделями в стиле GPT. Однако существуют и ограничения: технология требует доступа к файлам модели (весам), поэтому она не работает с проприетарными закрытыми моделями.

Инструмент наиболее эффективен для выявления бэкдоров на основе триггеров, генерирующих детерминированные результаты, но не является панацеей от всех видов вредоносного поведения. Исследователи позиционируют сканер как шаг к «практическому, развертываемому обнаружению бэкдоров», прогресс которого зависит от совместного обучения и сотрудничества в сообществе безопасности ИИ.

В рамках более широкого контекста Microsoft расширяет свой жизненный цикл безопасной разработки (SDL) для решения специфических проблем ИИ, таких как инъекции промптов и отравление данных. Йонатан Зунгер отмечает фундаментальное различие между традиционными системами и ИИ: последние размывают дискретные зоны доверия и сглаживают границы контекста, в то время как традиционные системы имеют предсказуемые пути.

Зунгер подчеркивает, что ИИ создает множественные точки входа для небезопасных данных, включая промпты, плагины, извлеченную информацию, обновления моделей, состояния памяти и внешние API. Это делает сложным принудительное ограничение целей и использование меток чувствительности, повышая значимость новых методов сканирования угроз.


Новое на сайте

19216Смертельный симбиоз спама и эксплойтов: как хакеры захватывают корпоративные сети за 11... 19215Как новые SaaS-платформы вроде Starkiller и 1Phish позволяют киберпреступникам незаметно... 19214Инженерия ужаса: как паровые машины и математика создали гений Эдгара Аллана по 19213Трансформация первой линии SOC: три шага к предиктивной безопасности 19212Архитектура смыслов в профессиональной редактуре 19211Манипуляция легитимными редиректами OAuth как вектор скрытых атак на правительственные... 19210Как активно эксплуатируемая уязвимость CVE-2026-21385 в графике Qualcomm привела к... 19209Как беспрецедентный бунт чернокожих женщин в суде Бостона разрушил планы рабовладельцев? 19208Как новые поколения троянов удаленного доступа захватывают системы ради кибершпионажа и... 19207Почему мировые киберпреступники захватили рекламные сети, и как Meta вместе с властями... 19206Как фальшивый пакет StripeApi.Net в NuGet Gallery незаметно похищал финансовые API-токены... 19205Зачем неизвестная группировка UAT-10027 внедряет бэкдор Dohdoor в системы образования и... 19204Ритуальный предсвадебный плач как форма протеста в традиционном Китае 19203Невидимая угроза в оперативной памяти: масштабная атака северокорейских хакеров на... 19202Как уязвимость нулевого дня в Cisco SD-WAN позволяет хакерам незаметно захватывать...
Ссылка