Ssylka

Могут ли LLM мыслить самостоятельно?

Новые "reasoning-модели», такие как DeepSeek-R1 и R1-Zero, демонстрируют способность решать сложные задачи через цепочку рассуждений, в отличие от простых текстовых генераторов. DeepSeek-R1-Zero особенно интересна тем, что обучается исключительно методом reinforcement learning (RL), без использования размеченных человеком данных.
Могут ли LLM мыслить самостоятельно?
Изображение носит иллюстративный характер

Ключевой особенностью DeepSeek-R1-Zero является применение алгоритма GRPO (Group Relative Policy Optimization), который позволяет отказаться от отдельной reward-модели, обычно требующей больших вычислительных ресурсов. GRPO оценивает качество ответов на основе сравнения группы сгенерированных вариантов, что экономит ресурсы и снижает риск «обмана» reward-модели.

В процессе обучения DeepSeek-R1-Zero наблюдается интересный эффект – "Aha-moment", когда модель спонтанно начинает включать рефлексию и самопроверку в свои рассуждения, значительно удлиняя цепочку логических выводов. При этом читабельность этих рассуждений может снижаться, поскольку модель использует смешение языков и другие нетрадиционные подходы, важным остается правильный результат.

DeepSeek-R1, в отличие от Zero-версии, использует многоэтапное обучение, включающее supervised fine-tuning (SFT) на специально подготовленных данных, а также RL. Это позволяет достичь более высокой читаемости рассуждений и лучших метрик, чем у DeepSeek-R1-Zero. После обучения R1 также проходит дистилляцию в небольшие модели, которые показывают лучшие результаты, чем если бы их учили как R1.


Новое на сайте

18890США неожиданно сняли санкции с ключевых фигур разработчика шпионского по Predator 18889Является ли современный искусственный интеллект похищенным огнем Прометея или лишь новой... 18888Чем угрожает почтовым серверам критическая уязвимость максимального уровня в SmarterMail? 18887Действительно ли возвращение волков стало единственной причиной восстановления экосистемы... 18886Как идеологические убеждения офицеров влияли на жестокость репрессий во время «грязной... 18885Революционная вакцина от фентанила переходит к первым клиническим испытаниям 18884Знаете ли вы, что приматы появились до вымирания динозавров, и готовы ли проверить свои... 18883Четыреста колец в туманности эмбрион раскрыли тридцатилетнюю тайну звездной эволюции 18882Телескоп Джеймс Уэбб раскрыл тайны сверхэффективной звездной фабрики стрелец B2 18881Математический анализ истинного количества сквозных отверстий в человеческом теле 18880Почему даже элитные суперраспознаватели проваливают тесты на выявление дипфейков без... 18879Шесть легендарных древних городов и столиц империй, местоположение которых до сих пор... 18878Обзор самых необычных медицинских диагнозов и клинических случаев 2025 года 18877Критическая уязвимость CVE-2025-14847 в MongoDB открывает удаленный доступ к памяти... 18876Научное обоснование классификации солнца как желтого карлика класса G2V