DeepSeek: оптимизация обучения и инференса LLM

DeepSeek-V3, модель с 671 млрд параметров, использует кластер из 2048 GPU NVIDIA H800 с быстрой внутриузловой связью NVLink и меж узловой InfiniBand, чтобы обучать и развертывать LLM. Разработчики DeepSeek оптимизировали фреймворки обучения и инференса для снижения стоимости обучения и генерации.
DeepSeek: оптимизация обучения и инференса LLM
Изображение носит иллюстративный характер

Для инференса SGLang применяет параллелизм данных (DP) для многоголового латентного внимания (MLA), что уменьшает кеш KV и позволяет использовать большие размеры батчей. В DP каждый рабочий процесс независимо обрабатывает разные батчи, данные собираются перед входом в слой смеси экспертов (MoE), а затем перераспределяются.

Фреймворк HAI-LLM для обучения использует 3D-параллелизм, сочетая параллелизм данных, конвейерный и тензорный параллелизм, а также последовательный параллелизм. Алгоритм DualPipe минимизирует простои в конвейерном параллелизме, перекрывая вычисления прямого и обратного проходов, тем самым снижая задержки на коммуникацию между узлами.

Для оптимизации генерации, эксперты в MoE, с высокой нагрузкой дублируются, обеспечивая равномерную обработку токенов. Применение формата FP8 для хранения весов и активаций снижает затраты памяти и ускоряет вычисления. Для снижения ошибок квантизации используется fine-grained quantization strategy и increasing accumulation precision.


Новое на сайте

19817В Луксоре нашли стелу с римским императором в образе фараона 19816Экипаж Artemis II о моменте, когда земля исчезла за луной 19815Почему луна выглядит по-разному в разных точках земли? 19814Adobe экстренно закрыла опасную дыру в Acrobat Reader, которую хакеры использовали с... 19813Метеорный поток, рождённый из умирающего астероида 19812Когда робот пишет за тебя прощальную смс 19811Что общего у лунной миссии, толстого попугая, загадочной плащаницы и лекарства от диабета? 19810Какие снимки Artemis II уже стали иконами лунной программы? 19809Кто на самом деле хочет сладкого — вы или ваши бактерии? 19808Как рекламные данные 500 миллионов телефонов оказались в руках спецслужб? 19807Экипаж Artemis II вернулся на землю после десяти дней в космосе 19806Зелёная и коричневая луна: почему геологи Artemis II уже не могут усидеть на месте 19805Эксперты уверены в теплозащитном щите Artemis II, несмотря на проблемы предшественника 19804Выжить внутри торнадо: каково это — когда тебя засасывает в воронку 19803Аляскинские косатки-охотники на млекопитающих замечены у берегов Сиэтла
Ссылка