Ssylka

Могут ли LLM мыслить самостоятельно?

Новые "reasoning-модели», такие как DeepSeek-R1 и R1-Zero, демонстрируют способность решать сложные задачи через цепочку рассуждений, в отличие от простых текстовых генераторов. DeepSeek-R1-Zero особенно интересна тем, что обучается исключительно методом reinforcement learning (RL), без использования размеченных человеком данных.
Могут ли LLM мыслить самостоятельно?
Изображение носит иллюстративный характер

Ключевой особенностью DeepSeek-R1-Zero является применение алгоритма GRPO (Group Relative Policy Optimization), который позволяет отказаться от отдельной reward-модели, обычно требующей больших вычислительных ресурсов. GRPO оценивает качество ответов на основе сравнения группы сгенерированных вариантов, что экономит ресурсы и снижает риск «обмана» reward-модели.

В процессе обучения DeepSeek-R1-Zero наблюдается интересный эффект – "Aha-moment", когда модель спонтанно начинает включать рефлексию и самопроверку в свои рассуждения, значительно удлиняя цепочку логических выводов. При этом читабельность этих рассуждений может снижаться, поскольку модель использует смешение языков и другие нетрадиционные подходы, важным остается правильный результат.

DeepSeek-R1, в отличие от Zero-версии, использует многоэтапное обучение, включающее supervised fine-tuning (SFT) на специально подготовленных данных, а также RL. Это позволяет достичь более высокой читаемости рассуждений и лучших метрик, чем у DeepSeek-R1-Zero. После обучения R1 также проходит дистилляцию в небольшие модели, которые показывают лучшие результаты, чем если бы их учили как R1.


Новое на сайте

18965Раскопки кургана Караагач указывают на неожиданную децентрализацию власти в древней... 18964Хаббл запечатлел крупнейший в истории наблюдений хаотичный протопланетный диск 18963Почему открытые телескопом «Джеймс Уэбб» «галактики-утконосы» ломают представления об... 18962Революционные космические открытия, пересмотр колыбели человечества и радикальные реформы... 18961Уникальный костяной стилус V века до нашей эры с изображением Диониса найден на Сицилии 18960Скрытый механизм защиты желудка от кислотного самопереваривания 18959Масштабная ликвидация испанской ячейки нигерийского преступного синдиката Black Axe 18958Китайские хакеры реализовали полный захват гипервизора VMware ESXi через уязвимости... 18957Анализ ископаемых зубов из Дманиси опровергает теорию о первенстве Homo erectus в... 18956Чем гигантское солнечное пятно AR 13664 спровоцировало мощнейшую бурю за 21 год и скрытый... 18955Крошечный костный выступ подтвердил прямохождение древнейшего предка человека возрастом... 18954Гендерный парадокс и социальная истерия во время первой дипломатической миссии самураев в... 18953Расследование гибели древнего добытчика бирюзы в пустыне Атакама 18952Противостояние Юпитера 10 января открывает сезон лучших астрономических наблюдений 18951Реформа кибербезопасности США через отмену устаревших директив CISA