Ssylka

DeepSeek Janus-7B: новый этап в мультимодальном ИИ

DeepSeek Janus-7B представляет собой мультимодальную модель, способную обрабатывать и генерировать как текст, так и изображения. Её ключевая особенность — применение архитектуры LlamaGen для генерации изображений, которая основана на принципах предсказания следующего токена, аналогично языковым моделям, но с визуальными токенами. Эта технология позволяет значительно улучшить качество генерации с увеличением параметров модели.
DeepSeek Janus-7B: новый этап в мультимодальном ИИ
Изображение носит иллюстративный характер

В отличие от традиционных диффузионных моделей, где изображение поэтапно превращается в шум и обратно, LlamaGen использует подход, схожий с обработкой текста, предсказывая следующие «визуальные слова». Такой метод открывает потенциал для значительного улучшения качества генерации изображений по мере увеличения мощности модели, что уже превосходит DALL-E 3 и Stable Diffusion XL, даже на начальном этапе развития.

Распознавание изображений в Janus-7B базируется на энкодере SigLIP, архитектура которого основана на CLIP. Хотя это не является революционным, использование передовых технологий в этой области позволяет обеспечить качественный ввод данных для последующей обработки и генерации. Модель сжимает изображения до размера 384x384 пикселей.

Несмотря на впечатляющие возможности, на данный момент Janus-7B имеет ограничения, в частности, генерация изображений ограничена разрешением 384x384, что не позволяет полноценно оценить ее потенциал для задач, требующих более высокого разрешения. Тем не менее, модель вызывает интерес благодаря своей мультимодальности и потенциалу для улучшения качества генерации изображений.


Новое на сайте

18845Комиссия по ценным бумагам США пресекла мошенническую схему с криптовалютами и... 18844Италия оштрафовала Apple за злоупотребление доминирующим положением через систему... 18843Как новый беспроводной имплант проецирует «фильмы» прямо в мозг, минуя органы чувств? 18842Стотысячный снимок Марса и новые открытия орбитального разведчика NASA 18841Почему кошки встречают мужчин гораздо громче и активнее, чем женщин? 18840Является ли Passwd ультимативным инструментом безопасности для организаций, работающих... 18839Археологические находки свидетельствуют о мирном сосуществовании зороастризма с... 18838Спецслужбы США и Эстонии нейтрализовали платформу web3adspanels для хищения банковских... 18837Способен ли новый материал M-rGO вытеснить традиционные аккумуляторы благодаря рекордной... 18836Почему более 100 000 серверов n8n оказались под угрозой полного захвата из-за критической... 18835Находка «ребенка из таунга»: открытие, навсегда изменившее представление об эволюции... 18834Визуальные итоги астрономического 2025 года: от межзвездной радуги до марсианских вулканов 18833Зачем кельты спрятали золотые подражания греческим монетам в швейцарском болоте 2300 лет... 18832Как нейробиология и физика переписывают древние философские споры о свободе воли, смысле... 18831Какую катастрофу скрывает уникальное массовое захоронение бронзового века на холме...