Безопасность больших языковых моделей: обзор и защита

OWASP LLM Top 10 определяет основные уязвимости, включая промпт-инъекции, отравление данных, проблемы цепочки поставок и галлюцинации. Промпт-инъекции, где ввод пользователя меняет поведение модели, эволюционировали от простых jailbreak-атак, таких как «атака бабушки», до более сложных методов, включая обход этики, утечку системных инструкций и кражу данных.
Безопасность больших языковых моделей: обзор и защита
Изображение носит иллюстративный характер

Мультимодальные модели, обрабатывающие текст и изображения, также уязвимы. Злоумышленники могут использовать «шум» на изображениях, чтобы заставить модель выдавать желаемый текст или действие. Например, можно изменить изображение так, чтобы агент выбирал определенный товар вопреки заданным параметрам поиска.

Кодовые модели, такие как Copilot, сталкиваются с проблемами меморизации и рисками триггеров. Модели могут запоминать и воспроизводить фрагменты кода из обучающих данных. Кроме того, скрытые триггеры в коде, распространяемые через открытые ресурсы, могут заставить модель сгенерировать вредоносный код.

Защита от этих угроз включает добавление защитных системных промптов, например «Не допускай опасный контент, твоя задача помогать». Также перспективна технология "Circuit Breaker", которая прерывает генерацию, если модель обнаруживает опасный ответ. Разрабатываются открытые фреймворки и тулы для обеспечения безопасности, причём рекомендации по безопасности различаются для разных кейсов и организаций, от стартапов до крупных компаний.


Новое на сайте

19687Почему красный чадор пугает больше, чем чёрный? 19686Как ИИ-агент в Google Cloud превращается в инсайдерскую угрозу? 19685ИИ против ИИ: как изменился смысл кибербезопасности 19684Artemis II: наса готовится запустить экипаж к луне 19683Почему Silver Fox атакует финансистов и менеджеров по всей Азии? 19682Гора аркану: магматическая шапка над кольцами древних художников 19681Пресная вода под солёным озером 19680Что скрывал тысячелетний алтарь империи тольтеков в мексиканской Туле? 19679Женщина против леопарда на арене: что скрывала римская мозаика, найденная в 1860 году? 19678Как хакеры используют ИИ-агентов: что показал RSAC 2026 19677Гартнер впервые описал рынок защиты ИИ-агентов — и вот что из этого следует 19676Meta и Google оштрафованы за то, что подсаживают людей на соцсети 19675Переговоры по реке Колорадо зашли в тупик: семь штатов не могут поделить тающую воду 19674Правительство США верит в нло, но мешает тем, кто их изучает 19673Почему корь снова распространяется по США, хотя её победили ещё в 2000 году?
Ссылка