Ssylka

DeepSeek-R1: новое поколение моделей рассуждений

DeepSeek представила две модели, R1 и R1-Zero, демонстрирующие передовые возможности рассуждений. Модели построены на базе MoE-модели DeepSeek-V3 с использованием многоголового скрытого внимания (MLA) и техники прогнозирования нескольких токенов (MTP). R1-Zero использует чистое обучение с подкреплением (RL), без SFT, полагаясь на автоматизированные юнит-тесты, математические проверки и логические задачи для определения вознаграждения. В R1 применяется более традиционный многоступенчатый подход обучения, включающий SFT, RL и последующее обучение, стремясь к улучшенной читаемости рассуждений.
DeepSeek-R1: новое поколение моделей рассуждений
Изображение носит иллюстративный характер

Ключевым нововведением является алгоритм GRPO, устраняющий необходимость в отдельной модели вознаграждения, как в PPO. GRPO формирует группу ответов на запрос, оценивает вознаграждение каждого ответа, вычисляет относительные преимущества на основе среднего вознаграждения и обновляет политику, используя механизм PPO. Этот подход экономит вычислительные ресурсы и предотвращает обман вознаграждения, так как базовый уровень формируется из выборки. R1-Zero продемонстрировала "aha-moment" в процессе обучения, когда модель начала генерировать длинные рефлексивные цепочки рассуждений.

R1-Zero использует мешок задач из различных бенчмарков, таких как MATH, CodeForces, MMLU и GPQA, а также синтетические цепочки, которые можно автоматизированно проверять. R1 использует начальный набор данных с детальными шагами решения, полученный путем запросов к предыдущим моделям, а также собранный вручную. Затем R1 использует RL на задачах, где есть автоматическая проверка, с небольшим языковым штрафом для читаемости. После отбора правильных решений, проводится SFT на сгенерированных данных и добавление общих данных из SFT.

Завершающим этапом обучения R1 является RL на всех сценариях с обученной моделью предпочтений. DeepSeek также предоставила дистиллированные версии R1 в более мелких моделях, таких как Qwen и Llama, для чего использовались трейсы рассуждений от большой модели, а не RL. Модель R1-Zero показала возможность быстрого RL обучения без человеческой обратной связи. GRPO оптимизирует политику, оценивая качество ответов внутри группы, а не по отношению к внешней модели вознаграждения.


Новое на сайте

18246Мог ли древний яд стать решающим фактором в эволюции человека? 18245Тайна колодца Мурсы: раны и днк раскрыли судьбу павших солдат 18244Битва за миллиардный сэндвич без корочки 18243Почему ваши расширения для VS Code могут оказаться шпионским по? 18242Как подать заявку FAFSA на 2026-27 учебный год и получить финансовую помощь? 18241Мог ли взлом F5 раскрыть уязвимости нулевого дня в продукте BIG-IP? 18240CVS завершает поглощение активов обанкротившейся сети Rite Aid 18239Nvidia, BlackRock и Microsoft покупают основу для глобального ИИ за $40 миллиардов 18238Действительно ли только род Homo создавал орудия труда? 18237Инженерный триумф: сотрудник Rivian вырастил тыкву-победителя 18236Процент с прибыли: как инвесторы создали новый источник финансирования для... 18235Почему синхронизируемые ключи доступа открывают двери для кибератак на предприятия? 18234Какова реальная цена суперсилы гриба из Super Mario? 18233Как люксовые бренды контролировали цены и почему за это поплатились? 18232Как диетическая кола растворила массу, вызванную лекарством для похудения