DeepSeek-R1: новое поколение моделей рассуждений

DeepSeek представила две модели, R1 и R1-Zero, демонстрирующие передовые возможности рассуждений. Модели построены на базе MoE-модели DeepSeek-V3 с использованием многоголового скрытого внимания (MLA) и техники прогнозирования нескольких токенов (MTP). R1-Zero использует чистое обучение с подкреплением (RL), без SFT, полагаясь на автоматизированные юнит-тесты, математические проверки и логические задачи для определения вознаграждения. В R1 применяется более традиционный многоступенчатый подход обучения, включающий SFT, RL и последующее обучение, стремясь к улучшенной читаемости рассуждений.
DeepSeek-R1: новое поколение моделей рассуждений
Изображение носит иллюстративный характер

Ключевым нововведением является алгоритм GRPO, устраняющий необходимость в отдельной модели вознаграждения, как в PPO. GRPO формирует группу ответов на запрос, оценивает вознаграждение каждого ответа, вычисляет относительные преимущества на основе среднего вознаграждения и обновляет политику, используя механизм PPO. Этот подход экономит вычислительные ресурсы и предотвращает обман вознаграждения, так как базовый уровень формируется из выборки. R1-Zero продемонстрировала "aha-moment" в процессе обучения, когда модель начала генерировать длинные рефлексивные цепочки рассуждений.

R1-Zero использует мешок задач из различных бенчмарков, таких как MATH, CodeForces, MMLU и GPQA, а также синтетические цепочки, которые можно автоматизированно проверять. R1 использует начальный набор данных с детальными шагами решения, полученный путем запросов к предыдущим моделям, а также собранный вручную. Затем R1 использует RL на задачах, где есть автоматическая проверка, с небольшим языковым штрафом для читаемости. После отбора правильных решений, проводится SFT на сгенерированных данных и добавление общих данных из SFT.

Завершающим этапом обучения R1 является RL на всех сценариях с обученной моделью предпочтений. DeepSeek также предоставила дистиллированные версии R1 в более мелких моделях, таких как Qwen и Llama, для чего использовались трейсы рассуждений от большой модели, а не RL. Модель R1-Zero показала возможность быстрого RL обучения без человеческой обратной связи. GRPO оптимизирует политику, оценивая качество ответов внутри группы, а не по отношению к внешней модели вознаграждения.


Новое на сайте

19164Уязвимые обучающие приложения открывают доступ к облакам Fortune 500 для криптомайнинга 19163Почему ботнет SSHStalker успешно атакует Linux уязвимостями десятилетней давности? 19162Microsoft устранила шесть уязвимостей нулевого дня и анонсировала радикальные изменения в... 19161Эскалация цифровой угрозы: как IT-специалисты КНДР используют реальные личности для... 19160Скрытые потребности клиентов и преимущество наблюдения над опросами 19159Академическое фиаско Дороти Паркер в Лос-Анджелесе 19158Китайский шпионский фреймворк DKnife захватывает роутеры с 2019 года 19157Каким образом корейские детские хоры 1950-х годов превратили геополитику в музыку и... 19156Научная революция цвета в женской моде викторианской эпохи 19155Как новый сканер Microsoft обнаруживает «спящих агентов» в открытых моделях ИИ? 19154Как новая кампания DEADVAX использует файлы VHD для скрытой доставки трояна AsyncRAT? 19153Как новые китайские киберкампании взламывают госструктуры Юго-Восточной Азии? 19152Культ священного манго и закат эпохи хунвейбинов в маоистском Китае 19151Готовы ли вы к эре коэффициента адаптивности, когда IQ и EQ больше не гарантируют успех? 19150Иранская группировка RedKitten применяет сгенерированный нейросетями код для кибершпионажа
Ссылка