Ssylka

Прорыв DeepSeek: как стартап превзошел технологических гигантов

Китайский стартап DeepSeek произвел фурор в мире искусственного интеллекта, создав открытые аналоги моделей OpenAI GPT-4o и o1, превосходящие их по производительности на ряде бенчмарков. Это достижение стало возможным благодаря использованию методов SFT (Supervised Fine-Tuning) и дистилляции знаний. Суть SFT заключается в дообучении небольшой модели на данных, сгенерированных более мощной моделью, что позволяет значительно повысить ее качество при относительно небольших затратах. Дистилляция, в свою очередь, переносит не только выходные значения, но и промежуточные, что повышает эффективность обучения.
Прорыв DeepSeek: как стартап превзошел технологических гигантов
Изображение носит иллюстративный характер

DeepSeek применил дистилляцию знаний для создания целой линейки моделей на базе Llama и Qwen, начиная с 1.5B параметров и заканчивая 70B. Версия DeepSeek-R1-Distill-Qwen-1.5B, полученная таким путем, удивила специалистов, опередив GPT-4o и Claude-3.5 Sonnet на математических тестах, требующих последовательного рассуждения.

Основой для модели DeepSeek R1 стала DeepSeek-V3-Base, обученная на 14.8 триллионах токенов за 2.788M H800 GPU-часов. R1 прошла обучение в два этапа: RL-обучение (с помощью Group Relative Policy Optimization), давшее R1-Zero, и SFT-файнтюнинг на небольшом, но качественном наборе данных, сделавший R1 конкурентом o1.

Несмотря на то, что DeepSeek не раскрывает свой набор данных, очевидно, что SFT играет ключевую роль в повышении производительности моделей. Это открывает возможности для использования R1 и других моделей DeepSeek для дообучения собственных моделей. В то же время, остается открытым вопрос о времени, затраченном на обучение моделей.


Новое на сайте

18666Почему мы отрицаем реальность, когда искусственный интеллект уже лишил нас когнитивного... 18665Химический след Тейи раскрыл тайну происхождения луны в ранней солнечной системе 18664Раскрывает ли извергающаяся межзвездная комета 3I/ATLAS химические тайны древней... 18663Масштабная кампания ShadyPanda заразила миллионы браузеров через официальные обновления 18662Как помидорные бои и персонажи Pixar помогают лидерам превратить корпоративную культуру 18661Как астероид 2024 YR4 стал первой исторической проверкой системы планетарной защиты и... 18660Агентные ИИ-браузеры как троянский конь новой эры кибербезопасности 18659Многовековая история изучения приливов от античных гипотез до синтеза Исаака Ньютона 18658Как выглядела защита от солнца римских легионеров в Египте 1600 лет назад? 18657Хакеры ToddyCat обновили арсенал для тотального взлома Outlook и Microsoft 365 18656Асимметрия безопасности: почему многомиллионные вложения в инструменты детекции не... 18655Как безопасно использовать репозитории Chocolatey и Winget, не подвергая инфраструктуру... 18654Масштабная утечка конфиденциальных данных через популярные онлайн-форматеры кода 18653Как расширение списка жертв взлома Gainsight связано с запуском вымогателя ShinySp1d3r 18652Как расширение Crypto Copilot незаметно похищает средства пользователей Solana на...