Ssylka

Могут ли LLM мыслить самостоятельно?

Новые "reasoning-модели», такие как DeepSeek-R1 и R1-Zero, демонстрируют способность решать сложные задачи через цепочку рассуждений, в отличие от простых текстовых генераторов. DeepSeek-R1-Zero особенно интересна тем, что обучается исключительно методом reinforcement learning (RL), без использования размеченных человеком данных.
Могут ли LLM мыслить самостоятельно?
Изображение носит иллюстративный характер

Ключевой особенностью DeepSeek-R1-Zero является применение алгоритма GRPO (Group Relative Policy Optimization), который позволяет отказаться от отдельной reward-модели, обычно требующей больших вычислительных ресурсов. GRPO оценивает качество ответов на основе сравнения группы сгенерированных вариантов, что экономит ресурсы и снижает риск «обмана» reward-модели.

В процессе обучения DeepSeek-R1-Zero наблюдается интересный эффект – "Aha-moment", когда модель спонтанно начинает включать рефлексию и самопроверку в свои рассуждения, значительно удлиняя цепочку логических выводов. При этом читабельность этих рассуждений может снижаться, поскольку модель использует смешение языков и другие нетрадиционные подходы, важным остается правильный результат.

DeepSeek-R1, в отличие от Zero-версии, использует многоэтапное обучение, включающее supervised fine-tuning (SFT) на специально подготовленных данных, а также RL. Это позволяет достичь более высокой читаемости рассуждений и лучших метрик, чем у DeepSeek-R1-Zero. После обучения R1 также проходит дистилляцию в небольшие модели, которые показывают лучшие результаты, чем если бы их учили как R1.


Новое на сайте

8732Новая эра киберугроз: законные инструменты в арсенале взломщиков Microsoft 365 8731Чем обернется громкий процесс Шона "Diddy" Комбса? 8730Музыка, сыр и праздник: Big Feastival 2024 готовится удивить гурманов и меломанов 8729Где купить информацию о ваших перемещениях? 8728Может ли нейросеть улавливать приоритеты в бытовых ситуациях? 8727Раскрываем секреты гармонии: йога и пилатес для тела и духа 8726Революция в мире дисплеев: Super AMOLED против AMOLED 8725Личность в коде: как измерить и использовать характер AI-чатботов 8724Как обеспечить непрерывность работы GitLab: переход на отказоустойчивый кластер? 8723Как помочь подростку выбрать профессию без стресса и ошибок? 8722Зелёный клин против квартир: почему Челмсфорд отказался от доступного жилья 8721Космический монстр: обнаружение галактики Инкатхазо и новая эра в радиоастрономии 8720Как стать Data Scientist'ом: с чего начать обучение? 8719DEX 2.0: как децентрализованные биржи совершили революцию в криптоторговле 8718Секреты успешной буксировки: разбираем каверзные вопросы пдд