Как быстро запустить DeepSeek LLM локально?

DeepSeek выпустила мощные LLM, включая R1 и ее дистилляты, превосходящие OpenAI по бенчмаркам. Для локального запуска можно использовать дистиллированные версии моделей, например, DeepSeek-R1-Distill-Qwen-32B, которая, как говорят, превосходит O1-mini, или более компактные варианты 7b Qwen и 8b Llama.
Как быстро запустить DeepSeek LLM локально?
Изображение носит иллюстративный характер

Для запуска потребуется Linux, видеокарта NVIDIA, Docker и Python. Модели, представленные в формате GGUF, совместимы с llama.cpp, обеспечивая быстрый и удобный инференс. Веса моделей можно скачать с помощью hf_transfer, выбрав нужные файлы из репозитория.

Готовый Docker-контейнер упрощает запуск: необходимо указать путь к моделям. Llama.cpp также предлагает базовый UI, позволяющий тестировать модели, сохраняя историю общения и настройки. Скорость инференса на 2080 Ti составит примерно 103 токена в секунду для начального промпта и около 8 токенов в секунду при генерации длинного текста для 7B модели.

Также возможно использование LM Studio на Windows для тестирования квантованных моделей, хотя и с меньшей производительностью. Преимущество подхода с llama.cpp заключается в возможности развертывания на сервере для командной работы и последующего использования в продакшене на более мощном железе.


Новое на сайте

19719Как хакеры через одну дыру в Next.js украли ключи от 766 серверов? 19718Artemis II покинул земную орбиту и летит к луне 19717NASA показало невиданные снимки кометы 3I/ATLAS и запечатлело старт лунной миссии Artemis... 19716Сифилис появился 4000 лет назад — или его находили не там, где искали? 19715Энергетический дисбаланс земли зашкаливает, и учёные не могут это объяснить 19714Cisco закрыла две критические уязвимости с рейтингом 9.8 из 10 в системах IMC и SSM 19713Водород из хлебных крошек: реакция, которая может потеснить ископаемое топливо 19712Китайский спутник с «рукой осьминога» прошёл орбитальный тест дозаправки 19711Кто такие поэты и почему поэзия важна сегодня? 19710Фальшивые установщики и ISO-файлы: как киберпреступники зарабатывают на майнинге и троянах 19709Почему большие языковые модели так и не научились думать 19708WhatsApp предупредил 200 пользователей о поддельном iOS-приложении со шпионским по:... 19707Открытый код под давлением ИИ: уязвимостей стало втрое больше за один квартал 19706Мышей с диабетом первого типа вылечили, создав «смешанный» иммунитет 19705Кости для азартных игр придумали коренные американцы 12 тысяч лет назад?
Ссылка