Безопасность больших языковых моделей: обзор и защита

OWASP LLM Top 10 определяет основные уязвимости, включая промпт-инъекции, отравление данных, проблемы цепочки поставок и галлюцинации. Промпт-инъекции, где ввод пользователя меняет поведение модели, эволюционировали от простых jailbreak-атак, таких как «атака бабушки», до более сложных методов, включая обход этики, утечку системных инструкций и кражу данных.
Безопасность больших языковых моделей: обзор и защита
Изображение носит иллюстративный характер

Мультимодальные модели, обрабатывающие текст и изображения, также уязвимы. Злоумышленники могут использовать «шум» на изображениях, чтобы заставить модель выдавать желаемый текст или действие. Например, можно изменить изображение так, чтобы агент выбирал определенный товар вопреки заданным параметрам поиска.

Кодовые модели, такие как Copilot, сталкиваются с проблемами меморизации и рисками триггеров. Модели могут запоминать и воспроизводить фрагменты кода из обучающих данных. Кроме того, скрытые триггеры в коде, распространяемые через открытые ресурсы, могут заставить модель сгенерировать вредоносный код.

Защита от этих угроз включает добавление защитных системных промптов, например «Не допускай опасный контент, твоя задача помогать». Также перспективна технология "Circuit Breaker", которая прерывает генерацию, если модель обнаруживает опасный ответ. Разрабатываются открытые фреймворки и тулы для обеспечения безопасности, причём рекомендации по безопасности различаются для разных кейсов и организаций, от стартапов до крупных компаний.


Новое на сайте

19729Веб-шеллы на PHP, управляемые через куки: как злоумышленники закрепляются на серверах... 19728Как учёным впервые удалось составить полную карту нервов клитора? 19727Homo habilis: самый древний «человек», который, возможно, им не является 19726Как северокорейские хакеры взломали одну из самых популярных библиотек JavaScript 19725Почему риски от подрядчиков стали главной дырой в кибербезопасности 19724Как выживший во второй мировой придумал нападение гигантского кальмара 19723Что если вселенная никогда не начиналась с точки бесконечной плотности? 19722Доживёт ли комета MAPS до субботы? 19721Квантовый процессор IBM побил сразу два рекорда — что это меняет? 19720Как северная Корея похитила $285 миллионов у Drift через предподписанные транзакции? 19719Как хакеры через одну дыру в Next.js украли ключи от 766 серверов? 19718Artemis II покинул земную орбиту и летит к луне 19717NASA показало невиданные снимки кометы 3I/ATLAS и запечатлело старт лунной миссии Artemis... 19716Сифилис появился 4000 лет назад — или его находили не там, где искали? 19715Энергетический дисбаланс земли зашкаливает, и учёные не могут это объяснить
Ссылка