Ssylka

Безопасность больших языковых моделей: обзор и защита

OWASP LLM Top 10 определяет основные уязвимости, включая промпт-инъекции, отравление данных, проблемы цепочки поставок и галлюцинации. Промпт-инъекции, где ввод пользователя меняет поведение модели, эволюционировали от простых jailbreak-атак, таких как «атака бабушки», до более сложных методов, включая обход этики, утечку системных инструкций и кражу данных.
Безопасность больших языковых моделей: обзор и защита
Изображение носит иллюстративный характер

Мультимодальные модели, обрабатывающие текст и изображения, также уязвимы. Злоумышленники могут использовать «шум» на изображениях, чтобы заставить модель выдавать желаемый текст или действие. Например, можно изменить изображение так, чтобы агент выбирал определенный товар вопреки заданным параметрам поиска.

Кодовые модели, такие как Copilot, сталкиваются с проблемами меморизации и рисками триггеров. Модели могут запоминать и воспроизводить фрагменты кода из обучающих данных. Кроме того, скрытые триггеры в коде, распространяемые через открытые ресурсы, могут заставить модель сгенерировать вредоносный код.

Защита от этих угроз включает добавление защитных системных промптов, например «Не допускай опасный контент, твоя задача помогать». Также перспективна технология "Circuit Breaker", которая прерывает генерацию, если модель обнаруживает опасный ответ. Разрабатываются открытые фреймворки и тулы для обеспечения безопасности, причём рекомендации по безопасности различаются для разных кейсов и организаций, от стартапов до крупных компаний.


Новое на сайте

14871Может ли автоматизация ИКСИ изменить будущее ЭКО? 14870Кто станет главным героем Radio 1's Big Weekend в Ливерпуле? 14869Хронические задержки в приёмных покоях: грядущий кризис для пожилых пациентов США 14868Математика идеального броска: как наука меняет боулинг 14867Почему именно бурбон и золотой сироп делают пасхальные булочки неповторимыми? 14866Пасхальные цыплята Peeps: как рождается икона американских сладостей 14865Почему Китай строит самые высокие мосты в мире? 14864Как BPFDoor остаётся невидимым и атакует телеком и финансы в Азии и на ближнем Востоке? 14863Какие опасные заблуждения могут разрушить ваш пенсионный план? 14862Когда неравенство не приговор: археология опровергает мифы о богатстве и власти 14861Будет ли гепотидацин прорывом в лечении гонореи? 14859BPFDoor: новое оружие для незаметного распространения атак на Linux-серверах 14858Следы древних гигантов: новые открытия на острове Скай раскрывают тайны юрского периода