Безопасность больших языковых моделей: обзор и защита

OWASP LLM Top 10 определяет основные уязвимости, включая промпт-инъекции, отравление данных, проблемы цепочки поставок и галлюцинации. Промпт-инъекции, где ввод пользователя меняет поведение модели, эволюционировали от простых jailbreak-атак, таких как «атака бабушки», до более сложных методов, включая обход этики, утечку системных инструкций и кражу данных.
Безопасность больших языковых моделей: обзор и защита
Изображение носит иллюстративный характер

Мультимодальные модели, обрабатывающие текст и изображения, также уязвимы. Злоумышленники могут использовать «шум» на изображениях, чтобы заставить модель выдавать желаемый текст или действие. Например, можно изменить изображение так, чтобы агент выбирал определенный товар вопреки заданным параметрам поиска.

Кодовые модели, такие как Copilot, сталкиваются с проблемами меморизации и рисками триггеров. Модели могут запоминать и воспроизводить фрагменты кода из обучающих данных. Кроме того, скрытые триггеры в коде, распространяемые через открытые ресурсы, могут заставить модель сгенерировать вредоносный код.

Защита от этих угроз включает добавление защитных системных промптов, например «Не допускай опасный контент, твоя задача помогать». Также перспективна технология "Circuit Breaker", которая прерывает генерацию, если модель обнаруживает опасный ответ. Разрабатываются открытые фреймворки и тулы для обеспечения безопасности, причём рекомендации по безопасности различаются для разных кейсов и организаций, от стартапов до крупных компаний.


Новое на сайте

5634Как правильно установить и настроить PostgreSQL в Linux? 5633Действительно ли цифровая трансформация повышает эффективность производства? 5632Как получить справедливую зарплату в эпоху ИИ-рекрутинга и заносчивых лидов? 5631Загадки синих колец: как вулканы изменяют историю деревьев 5630Могут ли звёзды-каннибалы пролить свет на тайны вселенной? 5629Какие RAG-фреймворки выбрать: LangChain или LlamaIndex? 5628Ускорит ли RoadRunner PHP-приложение? 5627Как эффективно диагностировать проблемы производительности PostgreSQL? 5626Каковы самые причудливые особенности синтаксиса языков программирования? 5625Почему Великобритания срочно переходит на зеленую энергию и что это означает для рабочих? 5623Ядовитая петля: битва за жизнь совенка в суффолке 5622Оазис роскоши: изысканный путь к самопознанию в Дубае 5621Почему карьера ученого стала лотереей? 5620Станет ли Ньюкасл новой столицей черной музыки на церемонии MOBO Awards 2025?