Ssylka

DeepSeek-R1: новое поколение моделей рассуждений

DeepSeek представила две модели, R1 и R1-Zero, демонстрирующие передовые возможности рассуждений. Модели построены на базе MoE-модели DeepSeek-V3 с использованием многоголового скрытого внимания (MLA) и техники прогнозирования нескольких токенов (MTP). R1-Zero использует чистое обучение с подкреплением (RL), без SFT, полагаясь на автоматизированные юнит-тесты, математические проверки и логические задачи для определения вознаграждения. В R1 применяется более традиционный многоступенчатый подход обучения, включающий SFT, RL и последующее обучение, стремясь к улучшенной читаемости рассуждений.
DeepSeek-R1: новое поколение моделей рассуждений
Изображение носит иллюстративный характер

Ключевым нововведением является алгоритм GRPO, устраняющий необходимость в отдельной модели вознаграждения, как в PPO. GRPO формирует группу ответов на запрос, оценивает вознаграждение каждого ответа, вычисляет относительные преимущества на основе среднего вознаграждения и обновляет политику, используя механизм PPO. Этот подход экономит вычислительные ресурсы и предотвращает обман вознаграждения, так как базовый уровень формируется из выборки. R1-Zero продемонстрировала "aha-moment" в процессе обучения, когда модель начала генерировать длинные рефлексивные цепочки рассуждений.

R1-Zero использует мешок задач из различных бенчмарков, таких как MATH, CodeForces, MMLU и GPQA, а также синтетические цепочки, которые можно автоматизированно проверять. R1 использует начальный набор данных с детальными шагами решения, полученный путем запросов к предыдущим моделям, а также собранный вручную. Затем R1 использует RL на задачах, где есть автоматическая проверка, с небольшим языковым штрафом для читаемости. После отбора правильных решений, проводится SFT на сгенерированных данных и добавление общих данных из SFT.

Завершающим этапом обучения R1 является RL на всех сценариях с обученной моделью предпочтений. DeepSeek также предоставила дистиллированные версии R1 в более мелких моделях, таких как Qwen и Llama, для чего использовались трейсы рассуждений от большой модели, а не RL. Модель R1-Zero показала возможность быстрого RL обучения без человеческой обратной связи. GRPO оптимизирует политику, оценивая качество ответов внутри группы, а не по отношению к внешней модели вознаграждения.


Новое на сайте

14871Может ли автоматизация ИКСИ изменить будущее ЭКО? 14870Кто станет главным героем Radio 1's Big Weekend в Ливерпуле? 14869Хронические задержки в приёмных покоях: грядущий кризис для пожилых пациентов США 14868Математика идеального броска: как наука меняет боулинг 14867Почему именно бурбон и золотой сироп делают пасхальные булочки неповторимыми? 14866Пасхальные цыплята Peeps: как рождается икона американских сладостей 14865Почему Китай строит самые высокие мосты в мире? 14864Как BPFDoor остаётся невидимым и атакует телеком и финансы в Азии и на ближнем Востоке? 14863Какие опасные заблуждения могут разрушить ваш пенсионный план? 14862Когда неравенство не приговор: археология опровергает мифы о богатстве и власти 14861Будет ли гепотидацин прорывом в лечении гонореи? 14859BPFDoor: новое оружие для незаметного распространения атак на Linux-серверах 14858Следы древних гигантов: новые открытия на острове Скай раскрывают тайны юрского периода