Ssylka

DeepSeek Janus-7B: новый этап в мультимодальном ИИ

DeepSeek Janus-7B представляет собой мультимодальную модель, способную обрабатывать и генерировать как текст, так и изображения. Её ключевая особенность — применение архитектуры LlamaGen для генерации изображений, которая основана на принципах предсказания следующего токена, аналогично языковым моделям, но с визуальными токенами. Эта технология позволяет значительно улучшить качество генерации с увеличением параметров модели.
DeepSeek Janus-7B: новый этап в мультимодальном ИИ
Изображение носит иллюстративный характер

В отличие от традиционных диффузионных моделей, где изображение поэтапно превращается в шум и обратно, LlamaGen использует подход, схожий с обработкой текста, предсказывая следующие «визуальные слова». Такой метод открывает потенциал для значительного улучшения качества генерации изображений по мере увеличения мощности модели, что уже превосходит DALL-E 3 и Stable Diffusion XL, даже на начальном этапе развития.

Распознавание изображений в Janus-7B базируется на энкодере SigLIP, архитектура которого основана на CLIP. Хотя это не является революционным, использование передовых технологий в этой области позволяет обеспечить качественный ввод данных для последующей обработки и генерации. Модель сжимает изображения до размера 384x384 пикселей.

Несмотря на впечатляющие возможности, на данный момент Janus-7B имеет ограничения, в частности, генерация изображений ограничена разрешением 384x384, что не позволяет полноценно оценить ее потенциал для задач, требующих более высокого разрешения. Тем не менее, модель вызывает интерес благодаря своей мультимодальности и потенциалу для улучшения качества генерации изображений.


Новое на сайте

18987Почему критическая уязвимость CVE-2025-59466 угрожает каждому приложению на Node.js? 18986Продвинутая кампания веб-скимминга маскируется под Stripe и скрывается от администраторов 18985Каким образом расширение «MEXC API Automator» опустошает счета пользователей биржи MEXC? 18984Когда состоится исторический запуск Artemis 2 и возвращение людей к луне? 18983Почему точный прогноз землетрясений остается невозможным даже после провала эксперимента... 18982Смысл становится последней человеческой монополией в эпоху алгоритмического управления 18981Почему протоколы управления машинами превращают агентный ИИ в скрытую угрозу безопасности? 18980Почему в новую эпоху вы потеряете работу не из-за нейросетей, а из-за человека с навыками... 18979Китайский фреймворк VoidLink на языке Zig меняет правила игры в облачном шпионаже 18978Является ли вызывающий рак штамм впч более древним спутником человечества, чем считалось... 18977Почему в 2025 году хакеры масштабируют старые методы вместо изобретения новых? 18976Критическая уязвимость в AI-платформе ServiceNow открывает доступ к подделке личности... 18975Многоэтапная кампания SHADOWREACTOR и скрытное внедрение Remcos RAT через текстовые... 18974Как внезапное расширение полярного вихря создало уникальные ледяные узоры вокруг Чикаго? 18973Древняя вирусная днк раскрывает механизмы развития эмбрионов и указывает путь к лечению...