Ssylka

Прорыв DeepSeek: как стартап превзошел технологических гигантов

Китайский стартап DeepSeek произвел фурор в мире искусственного интеллекта, создав открытые аналоги моделей OpenAI GPT-4o и o1, превосходящие их по производительности на ряде бенчмарков. Это достижение стало возможным благодаря использованию методов SFT (Supervised Fine-Tuning) и дистилляции знаний. Суть SFT заключается в дообучении небольшой модели на данных, сгенерированных более мощной моделью, что позволяет значительно повысить ее качество при относительно небольших затратах. Дистилляция, в свою очередь, переносит не только выходные значения, но и промежуточные, что повышает эффективность обучения.
Прорыв DeepSeek: как стартап превзошел технологических гигантов
Изображение носит иллюстративный характер

DeepSeek применил дистилляцию знаний для создания целой линейки моделей на базе Llama и Qwen, начиная с 1.5B параметров и заканчивая 70B. Версия DeepSeek-R1-Distill-Qwen-1.5B, полученная таким путем, удивила специалистов, опередив GPT-4o и Claude-3.5 Sonnet на математических тестах, требующих последовательного рассуждения.

Основой для модели DeepSeek R1 стала DeepSeek-V3-Base, обученная на 14.8 триллионах токенов за 2.788M H800 GPU-часов. R1 прошла обучение в два этапа: RL-обучение (с помощью Group Relative Policy Optimization), давшее R1-Zero, и SFT-файнтюнинг на небольшом, но качественном наборе данных, сделавший R1 конкурентом o1.

Несмотря на то, что DeepSeek не раскрывает свой набор данных, очевидно, что SFT играет ключевую роль в повышении производительности моделей. Это открывает возможности для использования R1 и других моделей DeepSeek для дообучения собственных моделей. В то же время, остается открытым вопрос о времени, затраченном на обучение моделей.


Новое на сайте

15389Подземное таяние под фундаментом северной Америки 15388NASA показала астероид Doughaldjohanson с формой булавы 15387Запрет восьми искусственных красителей в продуктах США: план Роберта Кеннеди-младшего 15386Как зловредный Docker-модуль использует Teneo Web3 для добычи криптовалюты через... 15385Влияние плана 529 на размер финансовой помощи в вузах 15384Первое свидетельство социального потребления алкоголя среди шимпанзе 15383Возвращение беверли Найт на родную сцену Веллингтона 15382«Череп» Марса: неожиданная находка ровера Perseverance в кратере Джезеро 15381Внутренние угрозы безопасности: браузеры как слабое звено в корпоративной защите 15380Тайна столкновения в скоплении персея раскрыта 15379Уязвимость ConfusedComposer в GCP Cloud Composer открывает путь к эскалации привилегий 15378Как когнитивные тесты помогают воспитать послушного щенка 15377Почему астероид Дональджонсон удивляет геологов всей сложностью? 15376Почему забыть отравление едой невозможно? 15375Стальная гнездовая коробка на мосту: надежная защита для орланов и автомобилистов