Ssylka

DeepSeek Janus-7B: новый этап в мультимодальном ИИ

DeepSeek Janus-7B представляет собой мультимодальную модель, способную обрабатывать и генерировать как текст, так и изображения. Её ключевая особенность — применение архитектуры LlamaGen для генерации изображений, которая основана на принципах предсказания следующего токена, аналогично языковым моделям, но с визуальными токенами. Эта технология позволяет значительно улучшить качество генерации с увеличением параметров модели.
DeepSeek Janus-7B: новый этап в мультимодальном ИИ
Изображение носит иллюстративный характер

В отличие от традиционных диффузионных моделей, где изображение поэтапно превращается в шум и обратно, LlamaGen использует подход, схожий с обработкой текста, предсказывая следующие «визуальные слова». Такой метод открывает потенциал для значительного улучшения качества генерации изображений по мере увеличения мощности модели, что уже превосходит DALL-E 3 и Stable Diffusion XL, даже на начальном этапе развития.

Распознавание изображений в Janus-7B базируется на энкодере SigLIP, архитектура которого основана на CLIP. Хотя это не является революционным, использование передовых технологий в этой области позволяет обеспечить качественный ввод данных для последующей обработки и генерации. Модель сжимает изображения до размера 384x384 пикселей.

Несмотря на впечатляющие возможности, на данный момент Janus-7B имеет ограничения, в частности, генерация изображений ограничена разрешением 384x384, что не позволяет полноценно оценить ее потенциал для задач, требующих более высокого разрешения. Тем не менее, модель вызывает интерес благодаря своей мультимодальности и потенциалу для улучшения качества генерации изображений.


Новое на сайте

18742Почему непропатченная уязвимость нулевого дня в Gogs привела к взлому сотен серверов... 18741Научные факты о зимнем солнцестоянии 2025 года и астрономические границы сезонов 18740Защищен ли ваш браузер от новой активно эксплуатируемой уязвимости в Google Chrome? 18739Чем грозит использование жестко закодированных ключей в решениях Gladinet? 18738Чем угрожает глобальная кампания React2Shell сотням тысяч серверов на базе React? 18737Как мозаика из Кеттона раскрыла сюжет утерянной трагедии Эсхила вопреки версии Гомера? 18736Нейробиология повседневных ритуалов: как осознанные действия программируют мозг на... 18735Почему обнаруженные уязвимости шифрования PCIe 5.0+ угрожают целостности данных в... 18734Действительно ли вал Адриана был безлюдным военным рубежом 18733Как злоумышленники обходят защиту AWS, AI и Kubernetes через скрытые настройки... 18732Как пересадка почки от донора, поцарапанного скунсом, привела к фатальному случаю... 18731Какие 17 гаджетов и аксессуаров гарантированно повысят эффективность тренировок в новом... 18730Microsoft исправляет критический эксплойт нулевого дня и уязвимости искусственного... 18729Срочные обновления безопасности от Fortinet, Ivanti и SAP устраняют критические уязвимости 18728Смертельный танец звезд в системе V Sagittae завершится ослепительным ядерным взрывом