Ssylka

DeepSeek Janus-7B: новый этап в мультимодальном ИИ

DeepSeek Janus-7B представляет собой мультимодальную модель, способную обрабатывать и генерировать как текст, так и изображения. Её ключевая особенность — применение архитектуры LlamaGen для генерации изображений, которая основана на принципах предсказания следующего токена, аналогично языковым моделям, но с визуальными токенами. Эта технология позволяет значительно улучшить качество генерации с увеличением параметров модели.
DeepSeek Janus-7B: новый этап в мультимодальном ИИ
Изображение носит иллюстративный характер

В отличие от традиционных диффузионных моделей, где изображение поэтапно превращается в шум и обратно, LlamaGen использует подход, схожий с обработкой текста, предсказывая следующие «визуальные слова». Такой метод открывает потенциал для значительного улучшения качества генерации изображений по мере увеличения мощности модели, что уже превосходит DALL-E 3 и Stable Diffusion XL, даже на начальном этапе развития.

Распознавание изображений в Janus-7B базируется на энкодере SigLIP, архитектура которого основана на CLIP. Хотя это не является революционным, использование передовых технологий в этой области позволяет обеспечить качественный ввод данных для последующей обработки и генерации. Модель сжимает изображения до размера 384x384 пикселей.

Несмотря на впечатляющие возможности, на данный момент Janus-7B имеет ограничения, в частности, генерация изображений ограничена разрешением 384x384, что не позволяет полноценно оценить ее потенциал для задач, требующих более высокого разрешения. Тем не менее, модель вызывает интерес благодаря своей мультимодальности и потенциалу для улучшения качества генерации изображений.


Новое на сайте

18323Может ли антивирус стать идеальным прикрытием для кибершпионажа? 18322Хранят ли два священных острова в ядовито-зеленом озере мумии древних императоров? 18321Что может рассказать пепел сгоревшей таверны XIX века? 18320Возможно ли создать универсальный донорский орган, изменив его группу крови? 18319Какие пять уязвимостей от Oracle до Apple стали оружием в руках хакеров? 18318Что может рассказать забытый соперник Рима о его истинном облике? 18317Почему оптическая иллюзия обманывает рыб, но не горлиц? 18316Эффект домино в облаке: как один сбой Amazon парализовал интернет 18315Непреодолимый энергетический барьер человеческого тела 18314Воздушный перегон в Бэдлендс: как вертолеты сохраняют популяцию бизонов 18313Бразильская спам-империя в магазине Google Chrome 18312Чистка рая: война Лос-Анджелеса против белых безработных 18311Архитектура страха: научное объяснение призраков и проклятых мест 18310Может ли копирование кода с веб-страницы обойти все ваши системы защиты? 18309Выжившие из Помпеи: как историк отследил беженцев Везувия