Ssylka

Могут ли LLM мыслить самостоятельно?

Новые "reasoning-модели», такие как DeepSeek-R1 и R1-Zero, демонстрируют способность решать сложные задачи через цепочку рассуждений, в отличие от простых текстовых генераторов. DeepSeek-R1-Zero особенно интересна тем, что обучается исключительно методом reinforcement learning (RL), без использования размеченных человеком данных.
Могут ли LLM мыслить самостоятельно?
Изображение носит иллюстративный характер

Ключевой особенностью DeepSeek-R1-Zero является применение алгоритма GRPO (Group Relative Policy Optimization), который позволяет отказаться от отдельной reward-модели, обычно требующей больших вычислительных ресурсов. GRPO оценивает качество ответов на основе сравнения группы сгенерированных вариантов, что экономит ресурсы и снижает риск «обмана» reward-модели.

В процессе обучения DeepSeek-R1-Zero наблюдается интересный эффект – "Aha-moment", когда модель спонтанно начинает включать рефлексию и самопроверку в свои рассуждения, значительно удлиняя цепочку логических выводов. При этом читабельность этих рассуждений может снижаться, поскольку модель использует смешение языков и другие нетрадиционные подходы, важным остается правильный результат.

DeepSeek-R1, в отличие от Zero-версии, использует многоэтапное обучение, включающее supervised fine-tuning (SFT) на специально подготовленных данных, а также RL. Это позволяет достичь более высокой читаемости рассуждений и лучших метрик, чем у DeepSeek-R1-Zero. После обучения R1 также проходит дистилляцию в небольшие модели, которые показывают лучшие результаты, чем если бы их учили как R1.


Новое на сайте

18862Готовы ли вы проверить свои знания о строении мозга и знаменитых научных экспериментах? 18861Стратегия долгосрочного мышления в эпоху мгновенных результатов 18860Римские артефакты из канадского секонд-хенда стали объектом научного расследования 18859Критическая уязвимость в устаревших видеорегистраторах Digiever стала целью для ботнетов... 18858Злоумышленники активно эксплуатируют пятилетнюю уязвимость Fortinet для обхода... 18857«Джеймс Уэбб»: путешествие от тропических лесов к краю времени 18856Почему нотаризация Apple не смогла остановить новый шпионский инструмент MacSync? 18855Как обнаружение скелета Люси возрастом 3,2 миллиона лет изменило понимание человеческой... 18854Действительно ли первая рождественская ночь была тихой, или Иисус родился в эпоху... 18853Первая в истории потенциальная суперкилоновая: открытие уникального гибридного взрыва... 18852Откуда взялась необъяснимая планета с атмосферой из сажи и алмазов, которую обнаружил... 18851Станет ли интернет зомби-апокалипсисом и почему доверие превращается в самую дорогую... 18850Оккультная одержимость Уильяма Батлера Йейтса как главный источник его поэтического... 18849Лучшие небесные объекты для зимних наблюдений в бинокль в сезоне 2025–2026 годов 18848Революция в палеогенетике и чтение днк из древних пещерных отложений