Прорыв DeepSeek: как стартап превзошел технологических гигантов

Китайский стартап DeepSeek произвел фурор в мире искусственного интеллекта, создав открытые аналоги моделей OpenAI GPT-4o и o1, превосходящие их по производительности на ряде бенчмарков. Это достижение стало возможным благодаря использованию методов SFT (Supervised Fine-Tuning) и дистилляции знаний. Суть SFT заключается в дообучении небольшой модели на данных, сгенерированных более мощной моделью, что позволяет значительно повысить ее качество при относительно небольших затратах. Дистилляция, в свою очередь, переносит не только выходные значения, но и промежуточные, что повышает эффективность обучения.
Прорыв DeepSeek: как стартап превзошел технологических гигантов
Изображение носит иллюстративный характер

DeepSeek применил дистилляцию знаний для создания целой линейки моделей на базе Llama и Qwen, начиная с 1.5B параметров и заканчивая 70B. Версия DeepSeek-R1-Distill-Qwen-1.5B, полученная таким путем, удивила специалистов, опередив GPT-4o и Claude-3.5 Sonnet на математических тестах, требующих последовательного рассуждения.

Основой для модели DeepSeek R1 стала DeepSeek-V3-Base, обученная на 14.8 триллионах токенов за 2.788M H800 GPU-часов. R1 прошла обучение в два этапа: RL-обучение (с помощью Group Relative Policy Optimization), давшее R1-Zero, и SFT-файнтюнинг на небольшом, но качественном наборе данных, сделавший R1 конкурентом o1.

Несмотря на то, что DeepSeek не раскрывает свой набор данных, очевидно, что SFT играет ключевую роль в повышении производительности моделей. Это открывает возможности для использования R1 и других моделей DeepSeek для дообучения собственных моделей. В то же время, остается открытым вопрос о времени, затраченном на обучение моделей.


Новое на сайте

20065[b]СПКЯ стало СПМЯ: почему переименование болезни, затрагивающей миллионы женщин, заняло... 20064[b]Почему великая пирамида Гизы пережила все землетрясения за 4500 лет[/b] 20063[b]Генетика Homo erectus: что зубная эмаль рассказала о наших предках[/b] 20062[b]Кости в бухте эребус: что кости моряков Франклина рассказывают спустя полтора века[/b] 20061[b]Крупнейший плавучий ветрогенератор в мире: Китай испытывает установку у берегов... 20060[b]Карие глаза младенца стали индиго после лечения от COVID-19[/b] 20058[b]Почему серебряная чаша с Афиной пролежала в немецком лесу две тысячи лет?[/b] 20057[b]Дыра в атмосфере солнца: вспышка достигла пика и может зажечь полярное сияние[/b] 20056[b]Динго возрастом 950 лет: кто и зачем кормил могилу животного сотни лет?[/b] 20055[b]Томоэ гозэн: женщина-самурай, которая существовала на самом деле[/b] 20054[b]Что видели астронавты «Аполлона-12» над лунным горизонтом?[/b] 20053[b]Восковой блокнот на латыни и шёлковая туалетная бумага: кто посещал средневековый... 20052[b]Хантавирус на борту: 41 человек под наблюдением после рейса MV Hondius[/b] 20051[b]Зелёные камни в пещере Пиренеев: четыре тысячи лет медной металлургии[/b]
Ссылка