Ssylka

DeepSeek: оптимизация обучения и инференса LLM

DeepSeek-V3, модель с 671 млрд параметров, использует кластер из 2048 GPU NVIDIA H800 с быстрой внутриузловой связью NVLink и меж узловой InfiniBand, чтобы обучать и развертывать LLM. Разработчики DeepSeek оптимизировали фреймворки обучения и инференса для снижения стоимости обучения и генерации.
DeepSeek: оптимизация обучения и инференса LLM
Изображение носит иллюстративный характер

Для инференса SGLang применяет параллелизм данных (DP) для многоголового латентного внимания (MLA), что уменьшает кеш KV и позволяет использовать большие размеры батчей. В DP каждый рабочий процесс независимо обрабатывает разные батчи, данные собираются перед входом в слой смеси экспертов (MoE), а затем перераспределяются.

Фреймворк HAI-LLM для обучения использует 3D-параллелизм, сочетая параллелизм данных, конвейерный и тензорный параллелизм, а также последовательный параллелизм. Алгоритм DualPipe минимизирует простои в конвейерном параллелизме, перекрывая вычисления прямого и обратного проходов, тем самым снижая задержки на коммуникацию между узлами.

Для оптимизации генерации, эксперты в MoE, с высокой нагрузкой дублируются, обеспечивая равномерную обработку токенов. Применение формата FP8 для хранения весов и активаций снижает затраты памяти и ускоряет вычисления. Для снижения ошибок квантизации используется fine-grained quantization strategy и increasing accumulation precision.


Новое на сайте

8060Нужны ли вам наушники с шумоподавлением? 8059Смертельная гонка со временем: Уганда на передовой борьбы со штаммом Эбола Судан 8058Почему число 23 преследовало немецкого хакера, работавшего на кгб? 8057Как зарабатывать с помощью нейросетей: реальные способы? 8056Может ли сатирическая новость стать реальностью на федеральном канале? 8055Может ли дикая кошка полюбить домашний очаг? 8054Возрождение реки Уэлленд: гармония природы и искусства в самом сердце Спалдинга 8052Японский прорыв в космосе: навигационная эра с новой ракетой H3 8051Какие последствия несет новый миграционный закон? 8050Как спланировать волшебное путешествие в гости к деду Морозу? 8049Как построить универсальную аналитическую систему, избежав привязки к вендору? 8048Почему лук заставляет нас плакать и есть ли способы этого избежать? 8046Может ли скейт-парк изменить будущее молодежи в Багдаде?