Ssylka

Безопасность больших языковых моделей: обзор и защита

OWASP LLM Top 10 определяет основные уязвимости, включая промпт-инъекции, отравление данных, проблемы цепочки поставок и галлюцинации. Промпт-инъекции, где ввод пользователя меняет поведение модели, эволюционировали от простых jailbreak-атак, таких как «атака бабушки», до более сложных методов, включая обход этики, утечку системных инструкций и кражу данных.
Безопасность больших языковых моделей: обзор и защита
Изображение носит иллюстративный характер

Мультимодальные модели, обрабатывающие текст и изображения, также уязвимы. Злоумышленники могут использовать «шум» на изображениях, чтобы заставить модель выдавать желаемый текст или действие. Например, можно изменить изображение так, чтобы агент выбирал определенный товар вопреки заданным параметрам поиска.

Кодовые модели, такие как Copilot, сталкиваются с проблемами меморизации и рисками триггеров. Модели могут запоминать и воспроизводить фрагменты кода из обучающих данных. Кроме того, скрытые триггеры в коде, распространяемые через открытые ресурсы, могут заставить модель сгенерировать вредоносный код.

Защита от этих угроз включает добавление защитных системных промптов, например «Не допускай опасный контент, твоя задача помогать». Также перспективна технология "Circuit Breaker", которая прерывает генерацию, если модель обнаруживает опасный ответ. Разрабатываются открытые фреймворки и тулы для обеспечения безопасности, причём рекомендации по безопасности различаются для разных кейсов и организаций, от стартапов до крупных компаний.


Новое на сайте

18247Зачем мозг в фазе быстрого сна стирает детали воспоминаний? 18246Мог ли древний яд стать решающим фактором в эволюции человека? 18245Тайна колодца Мурсы: раны и днк раскрыли судьбу павших солдат 18244Битва за миллиардный сэндвич без корочки 18243Почему ваши расширения для VS Code могут оказаться шпионским по? 18242Как подать заявку FAFSA на 2026-27 учебный год и получить финансовую помощь? 18241Мог ли взлом F5 раскрыть уязвимости нулевого дня в продукте BIG-IP? 18240CVS завершает поглощение активов обанкротившейся сети Rite Aid 18239Nvidia, BlackRock и Microsoft покупают основу для глобального ИИ за $40 миллиардов 18238Действительно ли только род Homo создавал орудия труда? 18237Инженерный триумф: сотрудник Rivian вырастил тыкву-победителя 18236Процент с прибыли: как инвесторы создали новый источник финансирования для... 18235Почему синхронизируемые ключи доступа открывают двери для кибератак на предприятия? 18234Какова реальная цена суперсилы гриба из Super Mario?