Ssylka

Безопасность больших языковых моделей: обзор и защита

OWASP LLM Top 10 определяет основные уязвимости, включая промпт-инъекции, отравление данных, проблемы цепочки поставок и галлюцинации. Промпт-инъекции, где ввод пользователя меняет поведение модели, эволюционировали от простых jailbreak-атак, таких как «атака бабушки», до более сложных методов, включая обход этики, утечку системных инструкций и кражу данных.
Безопасность больших языковых моделей: обзор и защита
Изображение носит иллюстративный характер

Мультимодальные модели, обрабатывающие текст и изображения, также уязвимы. Злоумышленники могут использовать «шум» на изображениях, чтобы заставить модель выдавать желаемый текст или действие. Например, можно изменить изображение так, чтобы агент выбирал определенный товар вопреки заданным параметрам поиска.

Кодовые модели, такие как Copilot, сталкиваются с проблемами меморизации и рисками триггеров. Модели могут запоминать и воспроизводить фрагменты кода из обучающих данных. Кроме того, скрытые триггеры в коде, распространяемые через открытые ресурсы, могут заставить модель сгенерировать вредоносный код.

Защита от этих угроз включает добавление защитных системных промптов, например «Не допускай опасный контент, твоя задача помогать». Также перспективна технология "Circuit Breaker", которая прерывает генерацию, если модель обнаруживает опасный ответ. Разрабатываются открытые фреймворки и тулы для обеспечения безопасности, причём рекомендации по безопасности различаются для разных кейсов и организаций, от стартапов до крупных компаний.


Новое на сайте

17174Почему после химиотерапии прямые волосы могут стать кудрявыми? 17173Солнечный свет против вечных химикатов: открыт полный распад ПФАС 17172Полный анализ лучших умных колец 2025 года 17171Коллективный разум: как муравьи превзошли человеческую командную работу 17170Может ли алмаз быть тверже алмаза? 17169Почему общепринятые правила ухода за компьютером больше не работают? 17168Как знание раба и ботаническая тайна разрушили монополию на мускатный орех? 17167Почему так сложно определить первого представителя рода Homo? 17166Уникальная гробница рыцаря XIII века обнаружена под кафе-мороженым 17165Действительно ли ваша аллергия на пенициллин реальна и чем она опасна? 17164Сможет ли выдра-спасатель найти то, что недоступно лучшим ищейкам? 17163Неуклюжий триумф: первая в мире Олимпиада для роботов 17162Скрытый механизм зарождения жизни: первое видео имплантации эмбриона 17161Древний замысел: находка в Кении отодвигает историю мышления на 600 000 лет 17160Китайские хакеры атакуют Тайвань с помощью кастомизированного арсенала