DeepSeek Janus-7B: новый этап в мультимодальном ИИ

DeepSeek Janus-7B представляет собой мультимодальную модель, способную обрабатывать и генерировать как текст, так и изображения. Её ключевая особенность — применение архитектуры LlamaGen для генерации изображений, которая основана на принципах предсказания следующего токена, аналогично языковым моделям, но с визуальными токенами. Эта технология позволяет значительно улучшить качество генерации с увеличением параметров модели.
DeepSeek Janus-7B: новый этап в мультимодальном ИИ
Изображение носит иллюстративный характер

В отличие от традиционных диффузионных моделей, где изображение поэтапно превращается в шум и обратно, LlamaGen использует подход, схожий с обработкой текста, предсказывая следующие «визуальные слова». Такой метод открывает потенциал для значительного улучшения качества генерации изображений по мере увеличения мощности модели, что уже превосходит DALL-E 3 и Stable Diffusion XL, даже на начальном этапе развития.

Распознавание изображений в Janus-7B базируется на энкодере SigLIP, архитектура которого основана на CLIP. Хотя это не является революционным, использование передовых технологий в этой области позволяет обеспечить качественный ввод данных для последующей обработки и генерации. Модель сжимает изображения до размера 384x384 пикселей.

Несмотря на впечатляющие возможности, на данный момент Janus-7B имеет ограничения, в частности, генерация изображений ограничена разрешением 384x384, что не позволяет полноценно оценить ее потенциал для задач, требующих более высокого разрешения. Тем не менее, модель вызывает интерес благодаря своей мультимодальности и потенциалу для улучшения качества генерации изображений.


Новое на сайте

19687Почему красный чадор пугает больше, чем чёрный? 19686Как ИИ-агент в Google Cloud превращается в инсайдерскую угрозу? 19685ИИ против ИИ: как изменился смысл кибербезопасности 19684Artemis II: наса готовится запустить экипаж к луне 19683Почему Silver Fox атакует финансистов и менеджеров по всей Азии? 19682Гора аркану: магматическая шапка над кольцами древних художников 19681Пресная вода под солёным озером 19680Что скрывал тысячелетний алтарь империи тольтеков в мексиканской Туле? 19679Женщина против леопарда на арене: что скрывала римская мозаика, найденная в 1860 году? 19678Как хакеры используют ИИ-агентов: что показал RSAC 2026 19677Гартнер впервые описал рынок защиты ИИ-агентов — и вот что из этого следует 19676Meta и Google оштрафованы за то, что подсаживают людей на соцсети 19675Переговоры по реке Колорадо зашли в тупик: семь штатов не могут поделить тающую воду 19674Правительство США верит в нло, но мешает тем, кто их изучает 19673Почему корь снова распространяется по США, хотя её победили ещё в 2000 году?
Ссылка