Ssylka

DeepSeek-R1: новое поколение моделей рассуждений

DeepSeek представила две модели, R1 и R1-Zero, демонстрирующие передовые возможности рассуждений. Модели построены на базе MoE-модели DeepSeek-V3 с использованием многоголового скрытого внимания (MLA) и техники прогнозирования нескольких токенов (MTP). R1-Zero использует чистое обучение с подкреплением (RL), без SFT, полагаясь на автоматизированные юнит-тесты, математические проверки и логические задачи для определения вознаграждения. В R1 применяется более традиционный многоступенчатый подход обучения, включающий SFT, RL и последующее обучение, стремясь к улучшенной читаемости рассуждений.
DeepSeek-R1: новое поколение моделей рассуждений
Изображение носит иллюстративный характер

Ключевым нововведением является алгоритм GRPO, устраняющий необходимость в отдельной модели вознаграждения, как в PPO. GRPO формирует группу ответов на запрос, оценивает вознаграждение каждого ответа, вычисляет относительные преимущества на основе среднего вознаграждения и обновляет политику, используя механизм PPO. Этот подход экономит вычислительные ресурсы и предотвращает обман вознаграждения, так как базовый уровень формируется из выборки. R1-Zero продемонстрировала "aha-moment" в процессе обучения, когда модель начала генерировать длинные рефлексивные цепочки рассуждений.

R1-Zero использует мешок задач из различных бенчмарков, таких как MATH, CodeForces, MMLU и GPQA, а также синтетические цепочки, которые можно автоматизированно проверять. R1 использует начальный набор данных с детальными шагами решения, полученный путем запросов к предыдущим моделям, а также собранный вручную. Затем R1 использует RL на задачах, где есть автоматическая проверка, с небольшим языковым штрафом для читаемости. После отбора правильных решений, проводится SFT на сгенерированных данных и добавление общих данных из SFT.

Завершающим этапом обучения R1 является RL на всех сценариях с обученной моделью предпочтений. DeepSeek также предоставила дистиллированные версии R1 в более мелких моделях, таких как Qwen и Llama, для чего использовались трейсы рассуждений от большой модели, а не RL. Модель R1-Zero показала возможность быстрого RL обучения без человеческой обратной связи. GRPO оптимизирует политику, оценивая качество ответов внутри группы, а не по отношению к внешней модели вознаграждения.


Новое на сайте

18604Является ли рекордная скидка на Garmin Instinct 3 Solar лучшим предложением ноября? 18603Могла ли детская смесь ByHeart вызвать национальную вспышку ботулизма? 18602Готовы ли банки доверить агентскому ИИ управление деньгами клиентов? 18601Как сезонные ветры создают миллионы загадочных полос на Марсе? 18600Как тело человека превращается в почву за 90 дней? 18599Как ваш iPhone может заменить паспорт при внутренних перелетах по США? 18598Мозговой шторм: что происходит, когда мозг отключается от усталости 18597Раскрыта асимметричная форма рождения сверхновой 18596Скидки Ninja: как получить идеальную корочку и сэкономить на доставке 18595Почему работа на нескольких работах становится новой нормой? 18594Записная книжка против нейросети: ценность медленного мышления 18593Растущая брешь в магнитном щите земли 18592Каким образом блокчейн-транзакции стали новым инструментом для кражи криптовалюты? 18591Что скрывается за ростом прибыли The Walt Disney Company? 18590Является ли ИИ-архитектура, имитирующая мозг, недостающим звеном на пути к AGI?