Ssylka

DeepSeek Janus-7B: новый этап в мультимодальном ИИ

DeepSeek Janus-7B представляет собой мультимодальную модель, способную обрабатывать и генерировать как текст, так и изображения. Её ключевая особенность — применение архитектуры LlamaGen для генерации изображений, которая основана на принципах предсказания следующего токена, аналогично языковым моделям, но с визуальными токенами. Эта технология позволяет значительно улучшить качество генерации с увеличением параметров модели.
DeepSeek Janus-7B: новый этап в мультимодальном ИИ
Изображение носит иллюстративный характер

В отличие от традиционных диффузионных моделей, где изображение поэтапно превращается в шум и обратно, LlamaGen использует подход, схожий с обработкой текста, предсказывая следующие «визуальные слова». Такой метод открывает потенциал для значительного улучшения качества генерации изображений по мере увеличения мощности модели, что уже превосходит DALL-E 3 и Stable Diffusion XL, даже на начальном этапе развития.

Распознавание изображений в Janus-7B базируется на энкодере SigLIP, архитектура которого основана на CLIP. Хотя это не является революционным, использование передовых технологий в этой области позволяет обеспечить качественный ввод данных для последующей обработки и генерации. Модель сжимает изображения до размера 384x384 пикселей.

Несмотря на впечатляющие возможности, на данный момент Janus-7B имеет ограничения, в частности, генерация изображений ограничена разрешением 384x384, что не позволяет полноценно оценить ее потенциал для задач, требующих более высокого разрешения. Тем не менее, модель вызывает интерес благодаря своей мультимодальности и потенциалу для улучшения качества генерации изображений.


Новое на сайте

18765Секрет вечности римского бетона: горячее смешивание и механизм самовосстановления 18764Рекордный семичасовой космический взрыв не поддается объяснению существующими научными... 18763Зачем черепахам панцирь: для защиты или рытья нор, и все ли умеют в нем прятаться? 18762Почему критическая уязвимость шестилетней давности в роутерах Sierra Wireless угрожает... 18761Как подросток пережил атаку льва 6200 лет назад и почему его похоронили как опасного... 18760Почему случайные травмы превращаются в вечные рисунки на теле? 18759Почему Apple экстренно закрывает уязвимости, используемые для атак на конкретных людей? 18758Какие открытия от Марса до темной материи меняют научную картину мира? 18757Как ультрагорячая супер-Земля TOI-561 b сумела сохранить плотную атмосферу в... 18756Третий межзвездный странник 3I/ATLAS меняет цвет и проявляет аномальную активность 18754Раскопки виселицы XVI века и массовых захоронений казненных мятежников в Гренобле 18753Почему скрытая инфекция убила гигантского крокодила Кассиуса после 40 лет жизни в неволе? 18752Первая церемония Global Space Awards в Лондоне определила лидеров космической индустрии 18751Как новые фишинговые инструменты BlackForce, GhostFrame и гибридные атаки 2025 года...