Ssylka

DeepSeek Janus-7B: новый этап в мультимодальном ИИ

DeepSeek Janus-7B представляет собой мультимодальную модель, способную обрабатывать и генерировать как текст, так и изображения. Её ключевая особенность — применение архитектуры LlamaGen для генерации изображений, которая основана на принципах предсказания следующего токена, аналогично языковым моделям, но с визуальными токенами. Эта технология позволяет значительно улучшить качество генерации с увеличением параметров модели.
DeepSeek Janus-7B: новый этап в мультимодальном ИИ
Изображение носит иллюстративный характер

В отличие от традиционных диффузионных моделей, где изображение поэтапно превращается в шум и обратно, LlamaGen использует подход, схожий с обработкой текста, предсказывая следующие «визуальные слова». Такой метод открывает потенциал для значительного улучшения качества генерации изображений по мере увеличения мощности модели, что уже превосходит DALL-E 3 и Stable Diffusion XL, даже на начальном этапе развития.

Распознавание изображений в Janus-7B базируется на энкодере SigLIP, архитектура которого основана на CLIP. Хотя это не является революционным, использование передовых технологий в этой области позволяет обеспечить качественный ввод данных для последующей обработки и генерации. Модель сжимает изображения до размера 384x384 пикселей.

Несмотря на впечатляющие возможности, на данный момент Janus-7B имеет ограничения, в частности, генерация изображений ограничена разрешением 384x384, что не позволяет полноценно оценить ее потенциал для задач, требующих более высокого разрешения. Тем не менее, модель вызывает интерес благодаря своей мультимодальности и потенциалу для улучшения качества генерации изображений.


Новое на сайте

18901Где искать на небе уникальное волчье суперлуние в соединении с Юпитером в начале 2026... 18900Ботнет RondoDox атакует 90 тысяч серверов через критическую уязвимость React2Shell 18899Что приготовила луна на 2026 год: когда наблюдать 13 полнолуний, кровавое затмение и... 18898Глобальная кампания кибершпионажа DarkSpectre скомпрометировала миллионы браузеров в... 18897Действительно ли человечеству необходимо колонизировать другие миры? 18896Особенности наблюдения метеорного потока квадрантиды в условиях январского полнолуния 18895Каменные пирамиды раздора и наследие «мясника Гипсленда» в Австралии 18894Критическая уязвимость в IBM API Connect с рейтингом 9.8 угрожает безопасности глобальных... 18893Эволюция киберугроз в npm и Maven: самораспространяющийся червь Shai-Hulud и поддельный... 18892Уникальная перуанская трофейная голова указывает на сакральный статус людей с врожденными... 18891Как аномально «гладкое» землетрясение в Мьянме меняет прогнозы для грядущего катаклизма в... 18890США неожиданно сняли санкции с ключевых фигур разработчика шпионского по Predator 18889Является ли современный искусственный интеллект похищенным огнем Прометея или лишь новой... 18888Чем угрожает почтовым серверам критическая уязвимость максимального уровня в SmarterMail? 18887Действительно ли возвращение волков стало единственной причиной восстановления экосистемы...