Ssylka

Deepseek V3: новый игрок в мире ИИ

Модель V3, разработанная китайской компанией DeepSeek, выделяется среди аналогов благодаря внушительному размеру, включающему 671 миллиард параметров, 37 миллиардов из которых активируются при каждом запросе. Обучение на 14,8 триллионах токенов и открытая лицензия делают её привлекательной для разработчиков, хотя и требуют значительных вычислительных ресурсов.
Deepseek  V3: новый игрок в мире ИИ
Изображение носит иллюстративный характер

По результатам тестов V3 превосходит такие модели как Llama 3.1, GPT-4o и Qwen 2.5, демонстрируя высокую производительность в задачах генерации текста, включая написание кода, перевод и создание эссе. Особенно выделяется её способность интегрировать сгенерированный код в уже существующие проекты.

Несмотря на затраты в 5,5 миллионов долларов и 3 миллиона часов на обучение, что меньше, чем у GPT-4, V3 требует мощного оборудования для эффективной работы. Открытый доступ к модели по разрешительной лицензии позволяет использовать её в коммерческих разработках и способствует развитию сообщества.


Новое на сайте

18738Чем угрожает глобальная кампания React2Shell сотням тысяч серверов на базе React? 18737Как мозаика из Кеттона раскрыла сюжет утерянной трагедии Эсхила вопреки версии Гомера? 18736Нейробиология повседневных ритуалов: как осознанные действия программируют мозг на... 18735Почему обнаруженные уязвимости шифрования PCIe 5.0+ угрожают целостности данных в... 18734Действительно ли вал Адриана был безлюдным военным рубежом 18733Как злоумышленники обходят защиту AWS, AI и Kubernetes через скрытые настройки... 18732Как пересадка почки от донора, поцарапанного скунсом, привела к фатальному случаю... 18731Какие 17 гаджетов и аксессуаров гарантированно повысят эффективность тренировок в новом... 18730Microsoft исправляет критический эксплойт нулевого дня и уязвимости искусственного... 18729Срочные обновления безопасности от Fortinet, Ivanti и SAP устраняют критические уязвимости 18728Смертельный танец звезд в системе V Sagittae завершится ослепительным ядерным взрывом 18727Зачем северокорейские хакеры используют критическую уязвимость React2Shell для внедрения... 18726Как масштабирование модели Malware-as-a-Service превратило CastleLoader в глобальную... 18725Как группировка Storm-0249 использует тактику ClickFix и подмену DLL для ускорения атак... 18724Реализация Shared Signals Framework для бесшовной архитектуры Zero Trust