Команда Microsoft AI Security в среду объявила о создании легкого сканера, предназначенного для обнаружения бэкдоров в открытых больших языковых моделях (LLM). Основной целью разработки заявлено повышение общего доверия к системам искусственного интеллекта. Инструмент характеризуется низким уровнем ложных срабатываний и использует три наблюдаемых сигнала для эффективной идентификации угроз.

Отчет о новой технологии был передан изданию The Hacker News. Его авторами выступили исследователи Блейк Буллвинкель и Джорджио Севери. В обсуждении стратегии безопасности также принял участие Йонатан Зунгер, корпоративный вице-президент и заместитель директора по информационной безопасности искусственного интеллекта в Microsoft.
LLM подвержены вмешательству в двух основных областях: весах модели, которые представляют собой обучаемые параметры логики принятия решений, и самом программном коде. Специфический тип атаки, называемый «отравлением модели», заключается во внедрении злоумышленником скрытого поведения во время обучения. Такие угрозы описываются как «спящие агенты»: они остаются бездействующими и выглядят нормально до тех пор, пока не будут активированы узко определенными триггерами.
Методология обнаружения Microsoft опирается на три внутренние сигнатуры поведения отравленных моделей. Первой является шаблон внимания «двойной треугольник» (Double Triangle): при наличии триггера в запросе модель изолированно фокусируется на нем, что вызывает резкий коллапс «случайности» в выходных данных. Вторая сигнатура — утечка данных через запоминание, так как «спящие агенты» склонны сохранять данные своего отравления и выдавать триггеры именно через механизмы памяти.
Третьим признаком является реакция на «нечеткие» триггеры, когда бэкдоры активируются частичными или приблизительными вариациями ключевой фразы. Рабочий процесс сканера состоит из четырех этапов: извлечение запомненного контента из модели, анализ контента для изоляции значимых подстрок, формализация трех вышеуказанных сигнатур в виде функций потерь и формирование ранжированного списка кандидатов на роль триггеров.
Среди преимуществ нового инструмента выделяются отсутствие необходимости в дополнительном обучении модели и отсутствие требований к предварительному знанию о поведении конкретного бэкдора. Сканер масштабируем и совместим с распространенными моделями в стиле GPT. Однако существуют и ограничения: технология требует доступа к файлам модели (весам), поэтому она не работает с проприетарными закрытыми моделями.
Инструмент наиболее эффективен для выявления бэкдоров на основе триггеров, генерирующих детерминированные результаты, но не является панацеей от всех видов вредоносного поведения. Исследователи позиционируют сканер как шаг к «практическому, развертываемому обнаружению бэкдоров», прогресс которого зависит от совместного обучения и сотрудничества в сообществе безопасности ИИ.
В рамках более широкого контекста Microsoft расширяет свой жизненный цикл безопасной разработки (SDL) для решения специфических проблем ИИ, таких как инъекции промптов и отравление данных. Йонатан Зунгер отмечает фундаментальное различие между традиционными системами и ИИ: последние размывают дискретные зоны доверия и сглаживают границы контекста, в то время как традиционные системы имеют предсказуемые пути.
Зунгер подчеркивает, что ИИ создает множественные точки входа для небезопасных данных, включая промпты, плагины, извлеченную информацию, обновления моделей, состояния памяти и внешние API. Это делает сложным принудительное ограничение целей и использование меток чувствительности, повышая значимость новых методов сканирования угроз.

Изображение носит иллюстративный характер
Отчет о новой технологии был передан изданию The Hacker News. Его авторами выступили исследователи Блейк Буллвинкель и Джорджио Севери. В обсуждении стратегии безопасности также принял участие Йонатан Зунгер, корпоративный вице-президент и заместитель директора по информационной безопасности искусственного интеллекта в Microsoft.
LLM подвержены вмешательству в двух основных областях: весах модели, которые представляют собой обучаемые параметры логики принятия решений, и самом программном коде. Специфический тип атаки, называемый «отравлением модели», заключается во внедрении злоумышленником скрытого поведения во время обучения. Такие угрозы описываются как «спящие агенты»: они остаются бездействующими и выглядят нормально до тех пор, пока не будут активированы узко определенными триггерами.
Методология обнаружения Microsoft опирается на три внутренние сигнатуры поведения отравленных моделей. Первой является шаблон внимания «двойной треугольник» (Double Triangle): при наличии триггера в запросе модель изолированно фокусируется на нем, что вызывает резкий коллапс «случайности» в выходных данных. Вторая сигнатура — утечка данных через запоминание, так как «спящие агенты» склонны сохранять данные своего отравления и выдавать триггеры именно через механизмы памяти.
Третьим признаком является реакция на «нечеткие» триггеры, когда бэкдоры активируются частичными или приблизительными вариациями ключевой фразы. Рабочий процесс сканера состоит из четырех этапов: извлечение запомненного контента из модели, анализ контента для изоляции значимых подстрок, формализация трех вышеуказанных сигнатур в виде функций потерь и формирование ранжированного списка кандидатов на роль триггеров.
Среди преимуществ нового инструмента выделяются отсутствие необходимости в дополнительном обучении модели и отсутствие требований к предварительному знанию о поведении конкретного бэкдора. Сканер масштабируем и совместим с распространенными моделями в стиле GPT. Однако существуют и ограничения: технология требует доступа к файлам модели (весам), поэтому она не работает с проприетарными закрытыми моделями.
Инструмент наиболее эффективен для выявления бэкдоров на основе триггеров, генерирующих детерминированные результаты, но не является панацеей от всех видов вредоносного поведения. Исследователи позиционируют сканер как шаг к «практическому, развертываемому обнаружению бэкдоров», прогресс которого зависит от совместного обучения и сотрудничества в сообществе безопасности ИИ.
В рамках более широкого контекста Microsoft расширяет свой жизненный цикл безопасной разработки (SDL) для решения специфических проблем ИИ, таких как инъекции промптов и отравление данных. Йонатан Зунгер отмечает фундаментальное различие между традиционными системами и ИИ: последние размывают дискретные зоны доверия и сглаживают границы контекста, в то время как традиционные системы имеют предсказуемые пути.
Зунгер подчеркивает, что ИИ создает множественные точки входа для небезопасных данных, включая промпты, плагины, извлеченную информацию, обновления моделей, состояния памяти и внешние API. Это делает сложным принудительное ограничение целей и использование меток чувствительности, повышая значимость новых методов сканирования угроз.