Как быстро запустить DeepSeek LLM локально?

DeepSeek выпустила мощные LLM, включая R1 и ее дистилляты, превосходящие OpenAI по бенчмаркам. Для локального запуска можно использовать дистиллированные версии моделей, например, DeepSeek-R1-Distill-Qwen-32B, которая, как говорят, превосходит O1-mini, или более компактные варианты 7b Qwen и 8b Llama.
Как быстро запустить DeepSeek LLM локально?
Изображение носит иллюстративный характер

Для запуска потребуется Linux, видеокарта NVIDIA, Docker и Python. Модели, представленные в формате GGUF, совместимы с llama.cpp, обеспечивая быстрый и удобный инференс. Веса моделей можно скачать с помощью hf_transfer, выбрав нужные файлы из репозитория.

Готовый Docker-контейнер упрощает запуск: необходимо указать путь к моделям. Llama.cpp также предлагает базовый UI, позволяющий тестировать модели, сохраняя историю общения и настройки. Скорость инференса на 2080 Ti составит примерно 103 токена в секунду для начального промпта и около 8 токенов в секунду при генерации длинного текста для 7B модели.

Также возможно использование LM Studio на Windows для тестирования квантованных моделей, хотя и с меньшей производительностью. Преимущество подхода с llama.cpp заключается в возможности развертывания на сервере для командной работы и последующего использования в продакшене на более мощном железе.


Новое на сайте

19698Крапивница от воды: редчайший диагноз, который врачи не могли разгадать 19697Северокорейские хакеры заразили npm-пакет Axios, нацелившись на кошельки разработчиков 19696Как утечка исходного кода Claude Code обнажила секретные режимы и спровоцировала волну... 19695Как взлом видеоконференций TrueConf превратил обновления в оружие против правительств... 19694Квантовые компьютеры взломают самое надёжное шифрование при 10 000 кубитах — почему это... 19693Взлом Axios: как украденный токен открыл хакерам доступ к 100 миллионам проектов 19692Что скрывала затопленная пещера в Техасе от учёных тысячи лет? 19691Как китайская борьба со смогом ударила по Арктике 19690Почему Google заставляет разработчиков Android раскрывать личность, а Apple ужесточает... 19689Ахиллесова пята смертельных супербактерий 19688Когда код пишет машина: скрытая цена вайбкодинга 19687Почему красный чадор пугает больше, чем чёрный? 19686Как ИИ-агент в Google Cloud превращается в инсайдерскую угрозу? 19685ИИ против ИИ: как изменился смысл кибербезопасности 19684Artemis II: наса готовится запустить экипаж к луне
Ссылка