Прорыв DeepSeek: как стартап превзошел технологических гигантов

Китайский стартап DeepSeek произвел фурор в мире искусственного интеллекта, создав открытые аналоги моделей OpenAI GPT-4o и o1, превосходящие их по производительности на ряде бенчмарков. Это достижение стало возможным благодаря использованию методов SFT (Supervised Fine-Tuning) и дистилляции знаний. Суть SFT заключается в дообучении небольшой модели на данных, сгенерированных более мощной моделью, что позволяет значительно повысить ее качество при относительно небольших затратах. Дистилляция, в свою очередь, переносит не только выходные значения, но и промежуточные, что повышает эффективность обучения.
Прорыв DeepSeek: как стартап превзошел технологических гигантов
Изображение носит иллюстративный характер

DeepSeek применил дистилляцию знаний для создания целой линейки моделей на базе Llama и Qwen, начиная с 1.5B параметров и заканчивая 70B. Версия DeepSeek-R1-Distill-Qwen-1.5B, полученная таким путем, удивила специалистов, опередив GPT-4o и Claude-3.5 Sonnet на математических тестах, требующих последовательного рассуждения.

Основой для модели DeepSeek R1 стала DeepSeek-V3-Base, обученная на 14.8 триллионах токенов за 2.788M H800 GPU-часов. R1 прошла обучение в два этапа: RL-обучение (с помощью Group Relative Policy Optimization), давшее R1-Zero, и SFT-файнтюнинг на небольшом, но качественном наборе данных, сделавший R1 конкурентом o1.

Несмотря на то, что DeepSeek не раскрывает свой набор данных, очевидно, что SFT играет ключевую роль в повышении производительности моделей. Это открывает возможности для использования R1 и других моделей DeepSeek для дообучения собственных моделей. В то же время, остается открытым вопрос о времени, затраченном на обучение моделей.


Новое на сайте

19521Банковский троян VENON на Rust атакует Бразилию с помощью девяти техник обхода защиты 19520Бонобо агрессивны не меньше шимпанзе, но всё решают самки 19519Почему 600-килограммовый зонд NASA падает на Землю из-за солнечной активности? 19518«Липовый календарь»: как расписание превращает работников в расходный материал 19517Вредоносные Rust-пакеты и ИИ-бот крадут секреты разработчиков через CI/CD-пайплайны 19516Как хакеры за 72 часа превратили npm-пакет в ключ от целого облака AWS 19515Как WebDAV-диск и поддельная капча помогают обойти антивирус? 19514Могут ли простые числа скрываться внутри чёрных дыр? 19513Метеорит пробил крышу дома в Германии — откуда взялся огненный шар над Европой? 19512Уязвимости LeakyLooker в Google Looker Studio открывали доступ к чужим базам данных 19511Почему тысячи серверов оказываются открытой дверью для хакеров, хотя могли бы ею не быть? 19510Как исследователи за четыре минуты заставили ИИ-браузер Perplexity Comet попасться на... 19509Может ли женщина без влагалища и шейки матки зачать ребёнка естественным путём? 19508Зачем учёные из Вены создали QR-код, который невозможно увидеть без электронного... 19507Девять уязвимостей CrackArmor позволяют получить root-доступ через модуль безопасности...
Ссылка