Ssylka

DeepSeek: оптимизация обучения и инференса LLM

DeepSeek-V3, модель с 671 млрд параметров, использует кластер из 2048 GPU NVIDIA H800 с быстрой внутриузловой связью NVLink и меж узловой InfiniBand, чтобы обучать и развертывать LLM. Разработчики DeepSeek оптимизировали фреймворки обучения и инференса для снижения стоимости обучения и генерации.
DeepSeek: оптимизация обучения и инференса LLM
Изображение носит иллюстративный характер

Для инференса SGLang применяет параллелизм данных (DP) для многоголового латентного внимания (MLA), что уменьшает кеш KV и позволяет использовать большие размеры батчей. В DP каждый рабочий процесс независимо обрабатывает разные батчи, данные собираются перед входом в слой смеси экспертов (MoE), а затем перераспределяются.

Фреймворк HAI-LLM для обучения использует 3D-параллелизм, сочетая параллелизм данных, конвейерный и тензорный параллелизм, а также последовательный параллелизм. Алгоритм DualPipe минимизирует простои в конвейерном параллелизме, перекрывая вычисления прямого и обратного проходов, тем самым снижая задержки на коммуникацию между узлами.

Для оптимизации генерации, эксперты в MoE, с высокой нагрузкой дублируются, обеспечивая равномерную обработку токенов. Применение формата FP8 для хранения весов и активаций снижает затраты памяти и ускоряет вычисления. Для снижения ошибок квантизации используется fine-grained quantization strategy и increasing accumulation precision.


Новое на сайте

18604Является ли рекордная скидка на Garmin Instinct 3 Solar лучшим предложением ноября? 18603Могла ли детская смесь ByHeart вызвать национальную вспышку ботулизма? 18602Готовы ли банки доверить агентскому ИИ управление деньгами клиентов? 18601Как сезонные ветры создают миллионы загадочных полос на Марсе? 18600Как тело человека превращается в почву за 90 дней? 18599Как ваш iPhone может заменить паспорт при внутренних перелетах по США? 18598Мозговой шторм: что происходит, когда мозг отключается от усталости 18597Раскрыта асимметричная форма рождения сверхновой 18596Скидки Ninja: как получить идеальную корочку и сэкономить на доставке 18595Почему работа на нескольких работах становится новой нормой? 18594Записная книжка против нейросети: ценность медленного мышления 18593Растущая брешь в магнитном щите земли 18592Каким образом блокчейн-транзакции стали новым инструментом для кражи криптовалюты? 18591Что скрывается за ростом прибыли The Walt Disney Company? 18590Является ли ИИ-архитектура, имитирующая мозг, недостающим звеном на пути к AGI?