Ssylka

Могут ли LLM мыслить самостоятельно?

Новые "reasoning-модели», такие как DeepSeek-R1 и R1-Zero, демонстрируют способность решать сложные задачи через цепочку рассуждений, в отличие от простых текстовых генераторов. DeepSeek-R1-Zero особенно интересна тем, что обучается исключительно методом reinforcement learning (RL), без использования размеченных человеком данных.
Могут ли LLM мыслить самостоятельно?
Изображение носит иллюстративный характер

Ключевой особенностью DeepSeek-R1-Zero является применение алгоритма GRPO (Group Relative Policy Optimization), который позволяет отказаться от отдельной reward-модели, обычно требующей больших вычислительных ресурсов. GRPO оценивает качество ответов на основе сравнения группы сгенерированных вариантов, что экономит ресурсы и снижает риск «обмана» reward-модели.

В процессе обучения DeepSeek-R1-Zero наблюдается интересный эффект – "Aha-moment", когда модель спонтанно начинает включать рефлексию и самопроверку в свои рассуждения, значительно удлиняя цепочку логических выводов. При этом читабельность этих рассуждений может снижаться, поскольку модель использует смешение языков и другие нетрадиционные подходы, важным остается правильный результат.

DeepSeek-R1, в отличие от Zero-версии, использует многоэтапное обучение, включающее supervised fine-tuning (SFT) на специально подготовленных данных, а также RL. Это позволяет достичь более высокой читаемости рассуждений и лучших метрик, чем у DeepSeek-R1-Zero. После обучения R1 также проходит дистилляцию в небольшие модели, которые показывают лучшие результаты, чем если бы их учили как R1.


Новое на сайте

18513Почему подкаст, отвечающий на самые странные вопросы, возвращается в эфир? 18512Загадка маленького тирана: Nanotyrannus признан отдельным видом 18511Как обычная крыса превратилась в воздушного хищника для летучих мышей? 18510Карликовый тиран: новый скелет бросает вызов T. rex 18509Повреждение дренажной системы мозга: новая причина «химиотумана» 18508Brash: уязвимость, обрушивающая браузеры одной вредоносной ссылкой 18507Может ли цветок имитировать запах раненых муравьёв для своего выживания? 18506От уязвимостей к доказанному удару: новая эра кибербезопасности 18505Ловушки искусственного интеллекта: как избежать профессиональной катастрофы 18504Почему в ноябре 2025 года Сатурн временно лишится своих колец? 18503Сможет ли союз музыкального гиганта и ИИ-стартапа изменить будущее музыки? 18502Что делает атаку PhantomRaven на npm практически невидимой для сканеров? 18501Двойной рывок Китая: штурм луны и освоение орбиты 18500Искусственный интеллект принес Samsung рекордную выручку и миллиарды прибыли 18499Искусственный шторм: как нейросети создают фейковую реальность стихийных бедствий