Ssylka

DeepSeek: оптимизация обучения и инференса LLM

DeepSeek-V3, модель с 671 млрд параметров, использует кластер из 2048 GPU NVIDIA H800 с быстрой внутриузловой связью NVLink и меж узловой InfiniBand, чтобы обучать и развертывать LLM. Разработчики DeepSeek оптимизировали фреймворки обучения и инференса для снижения стоимости обучения и генерации.
DeepSeek: оптимизация обучения и инференса LLM
Изображение носит иллюстративный характер

Для инференса SGLang применяет параллелизм данных (DP) для многоголового латентного внимания (MLA), что уменьшает кеш KV и позволяет использовать большие размеры батчей. В DP каждый рабочий процесс независимо обрабатывает разные батчи, данные собираются перед входом в слой смеси экспертов (MoE), а затем перераспределяются.

Фреймворк HAI-LLM для обучения использует 3D-параллелизм, сочетая параллелизм данных, конвейерный и тензорный параллелизм, а также последовательный параллелизм. Алгоритм DualPipe минимизирует простои в конвейерном параллелизме, перекрывая вычисления прямого и обратного проходов, тем самым снижая задержки на коммуникацию между узлами.

Для оптимизации генерации, эксперты в MoE, с высокой нагрузкой дублируются, обеспечивая равномерную обработку токенов. Применение формата FP8 для хранения весов и активаций снижает затраты памяти и ускоряет вычисления. Для снижения ошибок квантизации используется fine-grained quantization strategy и increasing accumulation precision.


Новое на сайте

19017Вредоносная кампания в Chrome перехватывает управление HR-системами и блокирует... 19016Глубоководные оползни раскрыли историю мегаземлетрясений зоны Каскадия за 7500 лет 19015Насколько глубоки ваши познания об эволюции и происхождении человека? 19014Как уязвимость CodeBreach в AWS CodeBuild могла привести к глобальной атаке через ошибку... 19013Затерянный фрагмент древней плиты пионер меняет карту сейсмических угроз Калифорнии 19012Генетические мутации вызывают слепоту менее чем в 30% случаев вопреки прежним прогнозам 19011Завершено строительство космического телескопа Nancy Grace Roman для поиска ста тысяч... 19010Вязкость пространства и фононы вакуума как разгадка аномалий расширения вселенной 19009Приведет ли массовое плодоношение дерева Риму к рекордному росту популяции какапо? 19008Как уязвимость CVE-2026-23550 в плагине Modular DS позволяет захватить управление сайтом? 19007Может ли уличная драка французского авантюриста раскрыть кризис американского гражданства... 19006Может ли один клик по легитимной ссылке заставить Microsoft Copilot и другие ИИ тайно... 19005Утрата истинного мастерства в эпоху алгоритмов и скрытые механизмы человеческого... 19004Почему защита самих моделей ИИ становится бессмысленной, если уязвимыми остаются рабочие... 19003Какие устаревшие привычки уничтожают эффективность MTTR вашего SOC в 2026 году?