Ssylka

Прорыв DeepSeek: как стартап превзошел технологических гигантов

Китайский стартап DeepSeek произвел фурор в мире искусственного интеллекта, создав открытые аналоги моделей OpenAI GPT-4o и o1, превосходящие их по производительности на ряде бенчмарков. Это достижение стало возможным благодаря использованию методов SFT (Supervised Fine-Tuning) и дистилляции знаний. Суть SFT заключается в дообучении небольшой модели на данных, сгенерированных более мощной моделью, что позволяет значительно повысить ее качество при относительно небольших затратах. Дистилляция, в свою очередь, переносит не только выходные значения, но и промежуточные, что повышает эффективность обучения.
Прорыв DeepSeek: как стартап превзошел технологических гигантов
Изображение носит иллюстративный характер

DeepSeek применил дистилляцию знаний для создания целой линейки моделей на базе Llama и Qwen, начиная с 1.5B параметров и заканчивая 70B. Версия DeepSeek-R1-Distill-Qwen-1.5B, полученная таким путем, удивила специалистов, опередив GPT-4o и Claude-3.5 Sonnet на математических тестах, требующих последовательного рассуждения.

Основой для модели DeepSeek R1 стала DeepSeek-V3-Base, обученная на 14.8 триллионах токенов за 2.788M H800 GPU-часов. R1 прошла обучение в два этапа: RL-обучение (с помощью Group Relative Policy Optimization), давшее R1-Zero, и SFT-файнтюнинг на небольшом, но качественном наборе данных, сделавший R1 конкурентом o1.

Несмотря на то, что DeepSeek не раскрывает свой набор данных, очевидно, что SFT играет ключевую роль в повышении производительности моделей. Это открывает возможности для использования R1 и других моделей DeepSeek для дообучения собственных моделей. В то же время, остается открытым вопрос о времени, затраченном на обучение моделей.


Новое на сайте

18590Является ли ИИ-архитектура, имитирующая мозг, недостающим звеном на пути к AGI? 18589Как Operation Endgame нанесла сокрушительный удар по глобальной киберпреступности? 18588Кибервойна на скорости машин: почему защита должна стать автоматической к 2026 году 18587Как одна ошибка в коде открыла для хакеров 54 000 файрволов WatchGuard? 18586Криптовалютный червь: как десятки тысяч фейковых пакетов наводнили npm 18585Портативный звук JBL по рекордно низкой цене 18584Воин-крокодил триаса: находка в Бразилии связала континенты 18583Опиум как повседневность древнего Египта 18582Двойной удар по лекарственно-устойчивой малярии 18581Почему взрыв массивной звезды асимметричен в первые мгновения? 18580Почему самые удобные для поиска жизни звезды оказались наиболее враждебными? 18579Смертоносные вспышки красных карликов угрожают обитаемым мирам 18578Почему самый активный подводный вулкан тихого океана заставил ученых пересмотреть дату... 18577Вспышка на солнце сорвала запуск ракеты New Glenn к Марсу 18576Как фишинг-платформа Lighthouse заработала миллиард долларов и почему Google подала на...