DeepSeek-R1: размышляющие ИИ-модели нового поколения

DeepSeek-R1 – это семейство моделей, использующих парадигму рефлексии, для улучшения рассуждений. Главной особенностью является использование "<think>" токенов, которые отображают ход мыслей модели, перед выдачей конечного результата. Модели обучаются с помощью дистилляции, где большая модель обучает меньшую на синтетических данных. Это позволяет создавать модели меньшего размера, сохраняя при этом высокую производительность.
DeepSeek-R1: размышляющие ИИ-модели нового поколения
Изображение носит иллюстративный характер

DeepSeek-R1 превосходит другие модели в задачах, требующих рассуждения, благодаря «цепочке размышлений». Но это приводит к многословным ответам, которые могут содержать избыточную информацию о ходе рассуждения. Данная особенность, впрочем, может быть полезной в приложениях RAG (Retrieval Augmented Generation), где процесс рассуждения позволяет отследить, как модель извлекает информацию из контекста.

Особого внимания заслуживает 1.58-квантованная версия, требующая в 6 раз меньше памяти без потери качества. Тем не менее, для запуска самой большой модели, даже с механизмом MoE, потребуется значительный объем оперативной памяти. Рекомендовано использование LM Studio или Ollama для удобства запуска и тестирования.

Важно отметить, что, как и другие языковые модели, DeepSeek-R1 подвержена предвзятости, так как обучается на данных, предоставленных людьми. При этом открытый исходный код модели позволяет пользователям самостоятельно проверять и настраивать ее под свои нужды. Модель может быть запущена даже на компьютерах с низкими ресурсами, используя llama.cpp, и через API-сервер, совместимый с OpenAI.


Новое на сайте

20072Эффект красоты решает исход собеседования до первых слов 20069Как черта характера крадёт деньги на переговорах 20068Карточная игра против главной дисфункции команды 20067Какие три нарратива способны провести компанию сквозь любой кризис? 20066Фотосинтез в глазах мышей: возможно ли это без превращения в растение? 20065СПКЯ стало СПМЯ: почему переименование болезни, затрагивающей миллионы женщин, заняло так... 20064Почему великая пирамида Гизы пережила все землетрясения за 4500 лет 20063Генетика Homo erectus: что зубная эмаль рассказала о наших предках 20062Кости в бухте Эребус: что кости моряков Франклина рассказывают спустя полтора века 20061Крупнейший плавучий ветрогенератор в мире: Китай испытывает установку у берегов Шанхая 20060Карие глаза младенца стали индиго после лечения от COVID-19 20058Почему серебряная чаша с Афиной пролежала в немецком лесу две тысячи лет? 20057Дыра в атмосфере солнца: вспышка достигла пика и может зажечь полярное сияние 20056Динго возрастом 950 лет: кто и зачем кормил могилу животного сотни лет?
Ссылка