Ssylka

Могут ли LLM мыслить самостоятельно?

Новые "reasoning-модели», такие как DeepSeek-R1 и R1-Zero, демонстрируют способность решать сложные задачи через цепочку рассуждений, в отличие от простых текстовых генераторов. DeepSeek-R1-Zero особенно интересна тем, что обучается исключительно методом reinforcement learning (RL), без использования размеченных человеком данных.
Могут ли LLM мыслить самостоятельно?
Изображение носит иллюстративный характер

Ключевой особенностью DeepSeek-R1-Zero является применение алгоритма GRPO (Group Relative Policy Optimization), который позволяет отказаться от отдельной reward-модели, обычно требующей больших вычислительных ресурсов. GRPO оценивает качество ответов на основе сравнения группы сгенерированных вариантов, что экономит ресурсы и снижает риск «обмана» reward-модели.

В процессе обучения DeepSeek-R1-Zero наблюдается интересный эффект – "Aha-moment", когда модель спонтанно начинает включать рефлексию и самопроверку в свои рассуждения, значительно удлиняя цепочку логических выводов. При этом читабельность этих рассуждений может снижаться, поскольку модель использует смешение языков и другие нетрадиционные подходы, важным остается правильный результат.

DeepSeek-R1, в отличие от Zero-версии, использует многоэтапное обучение, включающее supervised fine-tuning (SFT) на специально подготовленных данных, а также RL. Это позволяет достичь более высокой читаемости рассуждений и лучших метрик, чем у DeepSeek-R1-Zero. После обучения R1 также проходит дистилляцию в небольшие модели, которые показывают лучшие результаты, чем если бы их учили как R1.


Новое на сайте

19150Иранская группировка RedKitten применяет сгенерированный нейросетями код для кибершпионажа 19149Как новая волна голосового фишинга в стиле ShinyHunters обходит многофакторную... 19148Почему баски стали главными пастухами Америки: врожденный дар или расовый миф? 19147Бывший инженер Google осужден за экономический шпионаж и передачу секретов искусственного... 19146Насколько критичны новые уязвимости SmarterMail и почему их немедленное исправление... 19145Истинный контроль и природа человеческого мастерства: от учения эпиктета до современной... 19144Критические уязвимости нулевого дня в Ivanti EPMM активно эксплуатируются злоумышленниками 19143Почему биология и социальное давление толкают элиту на смертельный риск ради славы и... 19142Почему сотни энергетических объектов по всему миру остаются критически уязвимыми перед... 19141Возможен ли бесконечный полет дронов благодаря новой системе лазерной подзарядки? 19140Химический анализ впервые подтвердил использование человеческих экскрементов в римской... 19139Как искусственный интеллект AnomalyMatch всего за два дня обнаружил 1300 неизвестных... 19138Какие три стратегических решения директора по информационной безопасности предотвратят... 19137Почему обнаруженные в SolarWinds Web Help Desk критические уязвимости требуют... 19136Древнейшие в мире ручные деревянные орудия возрастом 430 000 лет обнаружены в Греции