Безопасность больших языковых моделей: обзор и защита

OWASP LLM Top 10 определяет основные уязвимости, включая промпт-инъекции, отравление данных, проблемы цепочки поставок и галлюцинации. Промпт-инъекции, где ввод пользователя меняет поведение модели, эволюционировали от простых jailbreak-атак, таких как «атака бабушки», до более сложных методов, включая обход этики, утечку системных инструкций и кражу данных.
Безопасность больших языковых моделей: обзор и защита
Изображение носит иллюстративный характер

Мультимодальные модели, обрабатывающие текст и изображения, также уязвимы. Злоумышленники могут использовать «шум» на изображениях, чтобы заставить модель выдавать желаемый текст или действие. Например, можно изменить изображение так, чтобы агент выбирал определенный товар вопреки заданным параметрам поиска.

Кодовые модели, такие как Copilot, сталкиваются с проблемами меморизации и рисками триггеров. Модели могут запоминать и воспроизводить фрагменты кода из обучающих данных. Кроме того, скрытые триггеры в коде, распространяемые через открытые ресурсы, могут заставить модель сгенерировать вредоносный код.

Защита от этих угроз включает добавление защитных системных промптов, например «Не допускай опасный контент, твоя задача помогать». Также перспективна технология "Circuit Breaker", которая прерывает генерацию, если модель обнаруживает опасный ответ. Разрабатываются открытые фреймворки и тулы для обеспечения безопасности, причём рекомендации по безопасности различаются для разных кейсов и организаций, от стартапов до крупных компаний.


Новое на сайте

19793Зачем древние корейцы приносили людей в жертву и вступали в близкородственные браки? 19792Уязвимость в EngageLab SDK поставила под удар 50 миллионов Android-устройств 19791Гражданская война шимпанзе в Уганде 19790Кибершпионы UAT-10362 охотятся на тайваньские нко с помощью малвари LucidRook 19789Телескоп Джеймса Уэбба обнаружил галактику-«ската» в скоплении MACS J1149 19788Комета MAPS сгорела в солнечной короне и вылетела облаком обломков 19787Кто стоит за кибератаками на журналистов ближнего Востока и зачем Индии понадобилась... 19786Теневой ИИ в компаниях: угроза, которую не видят безопасники 19785Почему NASA спокойно относится к проблеме с теплозащитным экраном Artemis II? 19784Шифрование видео, которое не сломает даже квантовый компьютер 19783Западу США грозит аномально опасный сезон пожаров 19782Белок, который не должен убивать: как одна гипотеза перевернула биологию 19781Серебряная монета XVI века указала на затерянную испанскую колонию у магелланова пролива 19780Что за загадочные клетки появляются в организме женщины только во время беременности? 19779Кератин как тормоз воспаления: неожиданная роль знакомого белка
Ссылка