Меню

Безопасность больших языковых моделей: обзор и защита

Зефирайн

OWASP LLM Top 10 определяет основные уязвимости, включая промпт-инъекции, отравление данных, проблемы цепочки поставок и галлюцинации. Промпт-инъекции, где ввод пользователя меняет поведение модели, эволюционировали от простых jailbreak-атак, таких как «атака бабушки», до более сложных методов, включая обход этики, утечку системных инструкций и кражу данных.
Безопасность больших языковых моделей: обзор и защита

Безопасность больших языковых моделей: обзор и защита

Изображение носит иллюстративный характер

Мультимодальные модели, обрабатывающие текст и изображения, также уязвимы. Злоумышленники могут использовать «шум» на изображениях, чтобы заставить модель выдавать желаемый текст или действие. Например, можно изменить изображение так, чтобы агент выбирал определенный товар вопреки заданным параметрам поиска.

Кодовые модели, такие как Copilot, сталкиваются с проблемами меморизации и рисками триггеров. Модели могут запоминать и воспроизводить фрагменты кода из обучающих данных. Кроме того, скрытые триггеры в коде, распространяемые через открытые ресурсы, могут заставить модель сгенерировать вредоносный код.

Защита от этих угроз включает добавление защитных системных промптов, например «Не допускай опасный контент, твоя задача помогать». Также перспективна технология "Circuit Breaker", которая прерывает генерацию, если модель обнаруживает опасный ответ. Разрабатываются открытые фреймворки и тулы для обеспечения безопасности, причём рекомендации по безопасности различаются для разных кейсов и организаций, от стартапов до крупных компаний.

Источник: artmaro

← Предыдущее в разделе Следующее в разделе →

Вверх

Новое на сайте

Скелет великана с трепанированным черепом обнаружен в массовом захоронении эпохи викингов

Почему пустыни возникают на берегу океана?

Кто вы по хронотипу — сова или жаворонок?

Сколько миллиардов лет отведено земле и другим планетам до их неизбежного разрушения?

Как экспериментальная назальная вакцина защищает лабораторных мышей от вирусов, бактерий...

Как привычная проверка паспорта превращается в скрытый канал утечки данных внутри...

Многоступенчатая угроза VOIDGEIST: как злоумышленники скрытно внедряют трояны XWorm,...

Эпоха «вайбвейра»: ИИ и экзотический код в масштабных кибератаках группировки APT36

Почему переход на ИИ-управление рисками становится главным условием роста для современных...

Атака на телекоммуникации южной Америки: новые инструменты китайской группировки UAT-9244

Критические бреши Hikvision и Rockwell Automation спровоцировали экстренные меры...

Масштабная кампания ClickFix использует Windows Terminal для развертывания Lumma Stealer...

Критический март для Cisco: хакеры активно эксплуатируют уязвимости Catalyst SD-WAN...

Трансформация двухколесного будущего: от индустриального триумфа до постапокалиптического...

Смертельный симбиоз спама и эксплойтов: как хакеры захватывают корпоративные сети за 11...

Меню

МенюЗакрыть