Ssylka

Могут ли LLM мыслить самостоятельно?

Новые "reasoning-модели», такие как DeepSeek-R1 и R1-Zero, демонстрируют способность решать сложные задачи через цепочку рассуждений, в отличие от простых текстовых генераторов. DeepSeek-R1-Zero особенно интересна тем, что обучается исключительно методом reinforcement learning (RL), без использования размеченных человеком данных.
Могут ли LLM мыслить самостоятельно?
Изображение носит иллюстративный характер

Ключевой особенностью DeepSeek-R1-Zero является применение алгоритма GRPO (Group Relative Policy Optimization), который позволяет отказаться от отдельной reward-модели, обычно требующей больших вычислительных ресурсов. GRPO оценивает качество ответов на основе сравнения группы сгенерированных вариантов, что экономит ресурсы и снижает риск «обмана» reward-модели.

В процессе обучения DeepSeek-R1-Zero наблюдается интересный эффект – "Aha-moment", когда модель спонтанно начинает включать рефлексию и самопроверку в свои рассуждения, значительно удлиняя цепочку логических выводов. При этом читабельность этих рассуждений может снижаться, поскольку модель использует смешение языков и другие нетрадиционные подходы, важным остается правильный результат.

DeepSeek-R1, в отличие от Zero-версии, использует многоэтапное обучение, включающее supervised fine-tuning (SFT) на специально подготовленных данных, а также RL. Это позволяет достичь более высокой читаемости рассуждений и лучших метрик, чем у DeepSeek-R1-Zero. После обучения R1 также проходит дистилляцию в небольшие модели, которые показывают лучшие результаты, чем если бы их учили как R1.


Новое на сайте

19124Почему незначительное изменение старого пароля делает корпоративную сеть легкой добычей... 19123Астрономический путеводитель по снежной луне и редким небесным явлениям февраля 2026 года 19122Критическая уязвимость CVE-2026-24858 открывает хакерам доступ к системам Fortinet через... 19121Подтверждает ли анализ 669 миллионов галактик стандартную модель космологии? 19120Робот EMO с силиконовым лицом преодолел эффект зловещей долины благодаря новой модели... 19119Как новые «строгие настройки аккаунта» в WhatsApp защитят журналистов и публичных лиц от... 19118Как новые связанные с Пакистаном киберкампании используют GitHub и Google Sheets против... 19117Новая киберкампания Amatera: гибрид социальной инженерии ClickFix и легитимного скрипта... 19116Находка составных орудий в сигоу опровергает миф об отсталости древних технологий... 19115Объективное мастерство как единственное лекарство от эгоизма и несчастья 19114Могло ли подводное землетрясение спровоцировать паническое бегство морских черепах 79... 19113Почему именно в октябре тигровые акулы чаще всего нападают на людей у берегов Гавайев? 19112Стратегия CTEM: эволюция от поиска уязвимостей к непрерывному управлению реальными... 19111Древнее озеро с кругами на полях скрывается в тени двугорбой горы саудовской Аравии 19110Способен ли новый светоактивируемый пластырь заменить болезненные инъекции гормонов при...