Ssylka

DeepSeek: оптимизация обучения и инференса LLM

DeepSeek-V3, модель с 671 млрд параметров, использует кластер из 2048 GPU NVIDIA H800 с быстрой внутриузловой связью NVLink и меж узловой InfiniBand, чтобы обучать и развертывать LLM. Разработчики DeepSeek оптимизировали фреймворки обучения и инференса для снижения стоимости обучения и генерации.
DeepSeek: оптимизация обучения и инференса LLM
Изображение носит иллюстративный характер

Для инференса SGLang применяет параллелизм данных (DP) для многоголового латентного внимания (MLA), что уменьшает кеш KV и позволяет использовать большие размеры батчей. В DP каждый рабочий процесс независимо обрабатывает разные батчи, данные собираются перед входом в слой смеси экспертов (MoE), а затем перераспределяются.

Фреймворк HAI-LLM для обучения использует 3D-параллелизм, сочетая параллелизм данных, конвейерный и тензорный параллелизм, а также последовательный параллелизм. Алгоритм DualPipe минимизирует простои в конвейерном параллелизме, перекрывая вычисления прямого и обратного проходов, тем самым снижая задержки на коммуникацию между узлами.

Для оптимизации генерации, эксперты в MoE, с высокой нагрузкой дублируются, обеспечивая равномерную обработку токенов. Применение формата FP8 для хранения весов и активаций снижает затраты памяти и ускоряет вычисления. Для снижения ошибок квантизации используется fine-grained quantization strategy и increasing accumulation precision.


Новое на сайте

15389Подземное таяние под фундаментом северной Америки 15388NASA показала астероид Doughaldjohanson с формой булавы 15387Запрет восьми искусственных красителей в продуктах США: план Роберта Кеннеди-младшего 15386Как зловредный Docker-модуль использует Teneo Web3 для добычи криптовалюты через... 15385Влияние плана 529 на размер финансовой помощи в вузах 15384Первое свидетельство социального потребления алкоголя среди шимпанзе 15383Возвращение беверли Найт на родную сцену Веллингтона 15382«Череп» Марса: неожиданная находка ровера Perseverance в кратере Джезеро 15381Внутренние угрозы безопасности: браузеры как слабое звено в корпоративной защите 15380Тайна столкновения в скоплении персея раскрыта 15379Уязвимость ConfusedComposer в GCP Cloud Composer открывает путь к эскалации привилегий 15378Как когнитивные тесты помогают воспитать послушного щенка 15377Почему астероид Дональджонсон удивляет геологов всей сложностью? 15376Почему забыть отравление едой невозможно? 15375Стальная гнездовая коробка на мосту: надежная защита для орланов и автомобилистов