Меню

DeepSeek Janus-7B: новый этап в мультимодальном ИИ

Зергиус

DeepSeek Janus-7B представляет собой мультимодальную модель, способную обрабатывать и генерировать как текст, так и изображения. Её ключевая особенность — применение архитектуры LlamaGen для генерации изображений, которая основана на принципах предсказания следующего токена, аналогично языковым моделям, но с визуальными токенами. Эта технология позволяет значительно улучшить качество генерации с увеличением параметров модели.
DeepSeek Janus-7B: новый этап в мультимодальном ИИ

DeepSeek Janus-7B: новый этап в мультимодальном ИИ

Изображение носит иллюстративный характер

В отличие от традиционных диффузионных моделей, где изображение поэтапно превращается в шум и обратно, LlamaGen использует подход, схожий с обработкой текста, предсказывая следующие «визуальные слова». Такой метод открывает потенциал для значительного улучшения качества генерации изображений по мере увеличения мощности модели, что уже превосходит DALL-E 3 и Stable Diffusion XL, даже на начальном этапе развития.

Распознавание изображений в Janus-7B базируется на энкодере SigLIP, архитектура которого основана на CLIP. Хотя это не является революционным, использование передовых технологий в этой области позволяет обеспечить качественный ввод данных для последующей обработки и генерации. Модель сжимает изображения до размера 384x384 пикселей.

Несмотря на впечатляющие возможности, на данный момент Janus-7B имеет ограничения, в частности, генерация изображений ограничена разрешением 384x384, что не позволяет полноценно оценить ее потенциал для задач, требующих более высокого разрешения. Тем не менее, модель вызывает интерес благодаря своей мультимодальности и потенциалу для улучшения качества генерации изображений.

Источник: ElKornacio

← Предыдущее в разделе Следующее в разделе →

Вверх

Новое на сайте

Китайские хакеры реализовали полный захват гипервизора VMware ESXi через уязвимости...

Анализ ископаемых зубов из Дманиси опровергает теорию о первенстве Homo erectus в...

Чем гигантское солнечное пятно AR 13664 спровоцировало мощнейшую бурю за 21 год и скрытый...

Крошечный костный выступ подтвердил прямохождение древнейшего предка человека возрастом...

Гендерный парадокс и социальная истерия во время первой дипломатической миссии самураев в...

Расследование гибели древнего добытчика бирюзы в пустыне Атакама

Противостояние Юпитера 10 января открывает сезон лучших астрономических наблюдений

Реформа кибербезопасности США через отмену устаревших директив CISA

Почему критическое обновление Trend Micro Apex Central требует немедленной установки?

Триумф и унижение первой женщины-лауреата Гран-при парижской академии наук

Зачем северокорейские хакеры Kimsuky заставляют жертв сканировать QR-коды и как это...

Уникальный космический реликт Cloud-9 подтвердил теории о темной материи и неудавшихся...

Китайская группировка UAT-7290 атакует телекоммуникационный сектор с помощью...

Почему у человечества осталось менее трех суток на спасение орбиты в случае глобального...

Как искусственный интеллект и сломанная экономика уничтожают долгосрочное планирование

Меню

МенюЗакрыть