Ssylka

DeepSeek-R1: новое поколение моделей рассуждений

DeepSeek представила две модели, R1 и R1-Zero, демонстрирующие передовые возможности рассуждений. Модели построены на базе MoE-модели DeepSeek-V3 с использованием многоголового скрытого внимания (MLA) и техники прогнозирования нескольких токенов (MTP). R1-Zero использует чистое обучение с подкреплением (RL), без SFT, полагаясь на автоматизированные юнит-тесты, математические проверки и логические задачи для определения вознаграждения. В R1 применяется более традиционный многоступенчатый подход обучения, включающий SFT, RL и последующее обучение, стремясь к улучшенной читаемости рассуждений.
DeepSeek-R1: новое поколение моделей рассуждений
Изображение носит иллюстративный характер

Ключевым нововведением является алгоритм GRPO, устраняющий необходимость в отдельной модели вознаграждения, как в PPO. GRPO формирует группу ответов на запрос, оценивает вознаграждение каждого ответа, вычисляет относительные преимущества на основе среднего вознаграждения и обновляет политику, используя механизм PPO. Этот подход экономит вычислительные ресурсы и предотвращает обман вознаграждения, так как базовый уровень формируется из выборки. R1-Zero продемонстрировала "aha-moment" в процессе обучения, когда модель начала генерировать длинные рефлексивные цепочки рассуждений.

R1-Zero использует мешок задач из различных бенчмарков, таких как MATH, CodeForces, MMLU и GPQA, а также синтетические цепочки, которые можно автоматизированно проверять. R1 использует начальный набор данных с детальными шагами решения, полученный путем запросов к предыдущим моделям, а также собранный вручную. Затем R1 использует RL на задачах, где есть автоматическая проверка, с небольшим языковым штрафом для читаемости. После отбора правильных решений, проводится SFT на сгенерированных данных и добавление общих данных из SFT.

Завершающим этапом обучения R1 является RL на всех сценариях с обученной моделью предпочтений. DeepSeek также предоставила дистиллированные версии R1 в более мелких моделях, таких как Qwen и Llama, для чего использовались трейсы рассуждений от большой модели, а не RL. Модель R1-Zero показала возможность быстрого RL обучения без человеческой обратной связи. GRPO оптимизирует политику, оценивая качество ответов внутри группы, а не по отношению к внешней модели вознаграждения.


Новое на сайте

18884Знаете ли вы, что приматы появились до вымирания динозавров, и готовы ли проверить свои... 18883Четыреста колец в туманности эмбрион раскрыли тридцатилетнюю тайну звездной эволюции 18882Телескоп Джеймс Уэбб раскрыл тайны сверхэффективной звездной фабрики стрелец B2 18881Математический анализ истинного количества сквозных отверстий в человеческом теле 18880Почему даже элитные суперраспознаватели проваливают тесты на выявление дипфейков без... 18879Шесть легендарных древних городов и столиц империй, местоположение которых до сих пор... 18878Обзор самых необычных медицинских диагнозов и клинических случаев 2025 года 18877Критическая уязвимость CVE-2025-14847 в MongoDB открывает удаленный доступ к памяти... 18876Научное обоснование классификации солнца как желтого карлика класса G2V 18875Как безграничная преданность горным гориллам привела Дайан Фосси к жестокой гибели? 18874Новый родственник спинозавра из Таиланда меняет представления об эволюции хищников Азии 18873Как новая электрохимическая технология позволяет удвоить добычу водорода и снизить... 18872Могут ли ледяные гиганты Уран и Нептун на самом деле оказаться каменными? 18871Внедрение вредоносного кода в расширение Trust Wallet привело к хищению 7 миллионов... 18870Проверка клинического мышления на основе редких медицинских случаев 2025 года