Можно ли обойти защиту DeepSeek-R1 через открытые цепочки рассуждений?

DeepSeek-R1 – мощная языковая модель с 671-миллиардным количеством параметров, использующая метод промежуточных шагов рассуждений для решения сложных задач, таких как математические примеры из набора GSM8K.
Можно ли обойти защиту DeepSeek-R1 через открытые цепочки рассуждений?
Изображение носит иллюстративный характер

Метод цепочки рассуждений подразумевает прохождение ряда логических этапов перед формированием окончательного ответа. Уникальной особенностью модели являются теги <think> и </think>, в которых прозрачно отображается внутренний процесс анализа запроса.

Появление видимой цепочки рассуждений создает угрозу промт атак, когда злоумышленники составляют специальные запросы для обхода защитных механизмов и получения недокументированной информации. Атакующая стратегия по своей сути аналогична фишинговым схемам, где методики постоянно адаптируются для обхода системных ограничений.

Использование инструмента NVIDIA Garak для red teaming показало, что специально сконструированные промты способны провоцировать раскрытие внутренних данных модели. Подобные тесты включали запросы на раскрытие цепочки рассуждений и чувствительной информации, например, API ключей, через метод payload splitting.

Классификация рисков охватывает как техники атак, так и цели. Среди методов выделяются Prompt Injection (OWASP LLM01:2025, MITRE AML.T0051) и Jailbreak (OWASP LLM01:2025, MITRE AML.T0054), а цели атаки включают кражу модели (MITRE AML.T0048.004), галлюцинацию пакетов (OWASP LLM09:2025, MITRE AML.T0062), утечку конфиденциальных данных (OWASP LLM02:2025, MITRE AML.T0057), генерацию небезопасного вывода (OWASP LLM05:2025, MITRE AML.T0050) и проявления токсичности (MITRE AML.T0048).

Отмечена опасность раскрытия чувствительной информации: даже если финальный ответ не содержит секрета, скрытая цепочка рассуждений может «раскрывать его, поскольку модель просматривает весь доступный контекст для интерпретации запроса пользователя». Такая уязвимость позволяет злоумышленникам получить доступ к внутренним данным, не предусмотренным для публичного разглашения.

Эксперименты продемонстрировали, что атаки, нацеленные на генерацию небезопасного вывода и утечку конфиденциальной информации, достигали более высокого уровня успеха, тогда как методы обхода защит от токсичности, Jailbreak и кража модели оказались менее эффективными. Видимость цепочки рассуждений, по всей вероятности, повышает вероятность успешного эксплойта.

Рекомендуется фильтровать теги <think> из ответов чат-ботов для исключения возможности утечки внутренних данных, а также регулярно применять комплексные red teaming стратегии для выявления уязвимостей в системах на базе больших языковых моделей.


Новое на сайте

19521Банковский троян VENON на Rust атакует Бразилию с помощью девяти техник обхода защиты 19520Бонобо агрессивны не меньше шимпанзе, но всё решают самки 19519Почему 600-килограммовый зонд NASA падает на Землю из-за солнечной активности? 19518«Липовый календарь»: как расписание превращает работников в расходный материал 19517Вредоносные Rust-пакеты и ИИ-бот крадут секреты разработчиков через CI/CD-пайплайны 19516Как хакеры за 72 часа превратили npm-пакет в ключ от целого облака AWS 19515Как WebDAV-диск и поддельная капча помогают обойти антивирус? 19514Могут ли простые числа скрываться внутри чёрных дыр? 19513Метеорит пробил крышу дома в Германии — откуда взялся огненный шар над Европой? 19512Уязвимости LeakyLooker в Google Looker Studio открывали доступ к чужим базам данных 19511Почему тысячи серверов оказываются открытой дверью для хакеров, хотя могли бы ею не быть? 19510Как исследователи за четыре минуты заставили ИИ-браузер Perplexity Comet попасться на... 19509Может ли женщина без влагалища и шейки матки зачать ребёнка естественным путём? 19508Зачем учёные из Вены создали QR-код, который невозможно увидеть без электронного... 19507Девять уязвимостей CrackArmor позволяют получить root-доступ через модуль безопасности...
Ссылка