Ssylka

DeepSeek Janus-7B: новый этап в мультимодальном ИИ

DeepSeek Janus-7B представляет собой мультимодальную модель, способную обрабатывать и генерировать как текст, так и изображения. Её ключевая особенность — применение архитектуры LlamaGen для генерации изображений, которая основана на принципах предсказания следующего токена, аналогично языковым моделям, но с визуальными токенами. Эта технология позволяет значительно улучшить качество генерации с увеличением параметров модели.
DeepSeek Janus-7B: новый этап в мультимодальном ИИ
Изображение носит иллюстративный характер

В отличие от традиционных диффузионных моделей, где изображение поэтапно превращается в шум и обратно, LlamaGen использует подход, схожий с обработкой текста, предсказывая следующие «визуальные слова». Такой метод открывает потенциал для значительного улучшения качества генерации изображений по мере увеличения мощности модели, что уже превосходит DALL-E 3 и Stable Diffusion XL, даже на начальном этапе развития.

Распознавание изображений в Janus-7B базируется на энкодере SigLIP, архитектура которого основана на CLIP. Хотя это не является революционным, использование передовых технологий в этой области позволяет обеспечить качественный ввод данных для последующей обработки и генерации. Модель сжимает изображения до размера 384x384 пикселей.

Несмотря на впечатляющие возможности, на данный момент Janus-7B имеет ограничения, в частности, генерация изображений ограничена разрешением 384x384, что не позволяет полноценно оценить ее потенциал для задач, требующих более высокого разрешения. Тем не менее, модель вызывает интерес благодаря своей мультимодальности и потенциалу для улучшения качества генерации изображений.


Новое на сайте

18967Терракотовая богиня из Тумба-Маджари: уникальный символ культа великой матери возрастом... 18966Эволюция глобальной теневой экономики и индустриализация кибермошенничества 18965Раскопки кургана Караагач указывают на неожиданную децентрализацию власти в древней... 18964Хаббл запечатлел крупнейший в истории наблюдений хаотичный протопланетный диск 18963Почему открытые телескопом «Джеймс Уэбб» «галактики-утконосы» ломают представления об... 18962Революционные космические открытия, пересмотр колыбели человечества и радикальные реформы... 18961Уникальный костяной стилус V века до нашей эры с изображением Диониса найден на Сицилии 18960Скрытый механизм защиты желудка от кислотного самопереваривания 18959Масштабная ликвидация испанской ячейки нигерийского преступного синдиката Black Axe 18958Китайские хакеры реализовали полный захват гипервизора VMware ESXi через уязвимости... 18957Анализ ископаемых зубов из Дманиси опровергает теорию о первенстве Homo erectus в... 18956Чем гигантское солнечное пятно AR 13664 спровоцировало мощнейшую бурю за 21 год и скрытый... 18955Крошечный костный выступ подтвердил прямохождение древнейшего предка человека возрастом... 18954Гендерный парадокс и социальная истерия во время первой дипломатической миссии самураев в... 18953Расследование гибели древнего добытчика бирюзы в пустыне Атакама