Могут ли LLM мыслить самостоятельно?

Новые "reasoning-модели», такие как DeepSeek-R1 и R1-Zero, демонстрируют способность решать сложные задачи через цепочку рассуждений, в отличие от простых текстовых генераторов. DeepSeek-R1-Zero особенно интересна тем, что обучается исключительно методом reinforcement learning (RL), без использования размеченных человеком данных.
Могут ли LLM мыслить самостоятельно?
Изображение носит иллюстративный характер

Ключевой особенностью DeepSeek-R1-Zero является применение алгоритма GRPO (Group Relative Policy Optimization), который позволяет отказаться от отдельной reward-модели, обычно требующей больших вычислительных ресурсов. GRPO оценивает качество ответов на основе сравнения группы сгенерированных вариантов, что экономит ресурсы и снижает риск «обмана» reward-модели.

В процессе обучения DeepSeek-R1-Zero наблюдается интересный эффект – "Aha-moment", когда модель спонтанно начинает включать рефлексию и самопроверку в свои рассуждения, значительно удлиняя цепочку логических выводов. При этом читабельность этих рассуждений может снижаться, поскольку модель использует смешение языков и другие нетрадиционные подходы, важным остается правильный результат.

DeepSeek-R1, в отличие от Zero-версии, использует многоэтапное обучение, включающее supervised fine-tuning (SFT) на специально подготовленных данных, а также RL. Это позволяет достичь более высокой читаемости рассуждений и лучших метрик, чем у DeepSeek-R1-Zero. После обучения R1 также проходит дистилляцию в небольшие модели, которые показывают лучшие результаты, чем если бы их учили как R1.


Новое на сайте

19523Как грамотный менеджмент создал мир, который невозможно запомнить 19521Банковский троян VENON на Rust атакует Бразилию с помощью девяти техник обхода защиты 19520Бонобо агрессивны не меньше шимпанзе, но всё решают самки 19519Почему 600-килограммовый зонд NASA падает на Землю из-за солнечной активности? 19518«Липовый календарь»: как расписание превращает работников в расходный материал 19517Вредоносные Rust-пакеты и ИИ-бот крадут секреты разработчиков через CI/CD-пайплайны 19516Как хакеры за 72 часа превратили npm-пакет в ключ от целого облака AWS 19515Как WebDAV-диск и поддельная капча помогают обойти антивирус? 19514Могут ли простые числа скрываться внутри чёрных дыр? 19513Метеорит пробил крышу дома в Германии — откуда взялся огненный шар над Европой? 19512Уязвимости LeakyLooker в Google Looker Studio открывали доступ к чужим базам данных 19511Почему тысячи серверов оказываются открытой дверью для хакеров, хотя могли бы ею не быть? 19510Как исследователи за четыре минуты заставили ИИ-браузер Perplexity Comet попасться на... 19509Может ли женщина без влагалища и шейки матки зачать ребёнка естественным путём? 19508Зачем учёные из Вены создали QR-код, который невозможно увидеть без электронного...
Ссылка