Меню

Могут ли LLM мыслить самостоятельно?

Авалайн

Новые "reasoning-модели», такие как DeepSeek-R1 и R1-Zero, демонстрируют способность решать сложные задачи через цепочку рассуждений, в отличие от простых текстовых генераторов. DeepSeek-R1-Zero особенно интересна тем, что обучается исключительно методом reinforcement learning (RL), без использования размеченных человеком данных.
Могут ли LLM мыслить самостоятельно?

Изображение носит иллюстративный характер

Ключевой особенностью DeepSeek-R1-Zero является применение алгоритма GRPO (Group Relative Policy Optimization), который позволяет отказаться от отдельной reward-модели, обычно требующей больших вычислительных ресурсов. GRPO оценивает качество ответов на основе сравнения группы сгенерированных вариантов, что экономит ресурсы и снижает риск «обмана» reward-модели.

В процессе обучения DeepSeek-R1-Zero наблюдается интересный эффект – "Aha-moment", когда модель спонтанно начинает включать рефлексию и самопроверку в свои рассуждения, значительно удлиняя цепочку логических выводов. При этом читабельность этих рассуждений может снижаться, поскольку модель использует смешение языков и другие нетрадиционные подходы, важным остается правильный результат.

DeepSeek-R1, в отличие от Zero-версии, использует многоэтапное обучение, включающее supervised fine-tuning (SFT) на специально подготовленных данных, а также RL. Это позволяет достичь более высокой читаемости рассуждений и лучших метрик, чем у DeepSeek-R1-Zero. После обучения R1 также проходит дистилляцию в небольшие модели, которые показывают лучшие результаты, чем если бы их учили как R1.

Источник: Razant

← Предыдущее в разделе Следующее в разделе →

Вверх

Новое на сайте

Почему Anthropic не может закрыть дыру в Claude for Chrome уже восемь версий подряд?

Как школьный обход блокировок превратился в оружие против нищего сервера медицинского...

Joomla получила две дыры с максимальным баллом опасности — и обе уже эксплуатировались до...

Grok Build тайно копировал целые репозитории разработчиков — история коммитов, секреты и...

Почему центру кибербезопасности нужны два разных мозга?

Кошельки для криптовалют выдают своих владельцев, даже не будучи взломанными

Как за год взломали Salesforce, ни разу не тронув саму платформу?

Почему подпись Microsoft десятилетней давности всё ещё открывает двери в чужую систему?

CrashStealer: как вредонос для macOS прошёл проверку Apple, спрятавшись за легальной...

Расширение с 1,6 миллиона установок хранило в себе спящий сборщик истории браузера

Меню

МенюЗакрыть