Ssylka

DeepSeek Janus-7B: новый этап в мультимодальном ИИ

DeepSeek Janus-7B представляет собой мультимодальную модель, способную обрабатывать и генерировать как текст, так и изображения. Её ключевая особенность — применение архитектуры LlamaGen для генерации изображений, которая основана на принципах предсказания следующего токена, аналогично языковым моделям, но с визуальными токенами. Эта технология позволяет значительно улучшить качество генерации с увеличением параметров модели.
DeepSeek Janus-7B: новый этап в мультимодальном ИИ
Изображение носит иллюстративный характер

В отличие от традиционных диффузионных моделей, где изображение поэтапно превращается в шум и обратно, LlamaGen использует подход, схожий с обработкой текста, предсказывая следующие «визуальные слова». Такой метод открывает потенциал для значительного улучшения качества генерации изображений по мере увеличения мощности модели, что уже превосходит DALL-E 3 и Stable Diffusion XL, даже на начальном этапе развития.

Распознавание изображений в Janus-7B базируется на энкодере SigLIP, архитектура которого основана на CLIP. Хотя это не является революционным, использование передовых технологий в этой области позволяет обеспечить качественный ввод данных для последующей обработки и генерации. Модель сжимает изображения до размера 384x384 пикселей.

Несмотря на впечатляющие возможности, на данный момент Janus-7B имеет ограничения, в частности, генерация изображений ограничена разрешением 384x384, что не позволяет полноценно оценить ее потенциал для задач, требующих более высокого разрешения. Тем не менее, модель вызывает интерес благодаря своей мультимодальности и потенциалу для улучшения качества генерации изображений.


Новое на сайте

18799Как первые подробные карты «точки невозврата» на солнце помогут защитить земные... 18798Динамическая защита как единственный ответ на бесконтрольное разрастание искусственного... 18797Древнее сближение солнца с гигантскими звездами раскрыло тайну аномалии местного космоса 18796Северокорейские хакеры Kimsuky внедрили QR-фишинг для распространения трояна DocSwap 18795Как китайская кибергруппировка использует критическую уязвимость CVE-2025-20393 18794Как изобилие пингвинов превратило пум-одиночек в терпимых друг к другу хищников? 18793Критическая уязвимость устройств SonicWall SMA 100 используется хакерами для получения... 18792Как ваш Android TV мог стать частью глобального ботнета Kimwolf размером в 1,8 миллиона... 18791Почему на склоне холма в Линкольншире был зарыт уникальный клад англосаксонского золота? 18790Почему «снежная каша» в недрах титана может оказаться лучшим местом для жизни, чем... 18789Истинное понимание сложных когнитивных функций мозга требует выхода науки за пределы... 18788Шерстяная одежда жертв Везувия оживила споры о дате гибели Помпей 18787Способна ли контекстная киберразведка превратить работу SOC из реагирования на инциденты... 18786Тысячи пользователей Firefox стали жертвами скрытой вредоносной кампании GhostPoster 18785Древние пчелы использовали кости мертвых грызунов для создания многоуровневых гнезд