Ssylka

DeepSeek Janus-7B: новый этап в мультимодальном ИИ

DeepSeek Janus-7B представляет собой мультимодальную модель, способную обрабатывать и генерировать как текст, так и изображения. Её ключевая особенность — применение архитектуры LlamaGen для генерации изображений, которая основана на принципах предсказания следующего токена, аналогично языковым моделям, но с визуальными токенами. Эта технология позволяет значительно улучшить качество генерации с увеличением параметров модели.
DeepSeek Janus-7B: новый этап в мультимодальном ИИ
Изображение носит иллюстративный характер

В отличие от традиционных диффузионных моделей, где изображение поэтапно превращается в шум и обратно, LlamaGen использует подход, схожий с обработкой текста, предсказывая следующие «визуальные слова». Такой метод открывает потенциал для значительного улучшения качества генерации изображений по мере увеличения мощности модели, что уже превосходит DALL-E 3 и Stable Diffusion XL, даже на начальном этапе развития.

Распознавание изображений в Janus-7B базируется на энкодере SigLIP, архитектура которого основана на CLIP. Хотя это не является революционным, использование передовых технологий в этой области позволяет обеспечить качественный ввод данных для последующей обработки и генерации. Модель сжимает изображения до размера 384x384 пикселей.

Несмотря на впечатляющие возможности, на данный момент Janus-7B имеет ограничения, в частности, генерация изображений ограничена разрешением 384x384, что не позволяет полноценно оценить ее потенциал для задач, требующих более высокого разрешения. Тем не менее, модель вызывает интерес благодаря своей мультимодальности и потенциалу для улучшения качества генерации изображений.


Новое на сайте

18817Искусственный интеллект в математике: от олимпиадного золота до решения вековых проблем 18816Радиоактивный след в Арктике: путь цезия-137 от лишайника через оленей к коренным народам 18815Критическая уязвимость WatchGuard CVE-2025-14733 с рейтингом 9.3 уже эксплуатируется в... 18814Что подготовило ночное небо на праздники 2025 года и какие астрономические явления нельзя... 18813Зачем нубийские христиане наносили татуировки на лица младенцев 1400 лет назад? 18812Как увидеть метеорный поток Урсиды в самую длинную ночь 2025 года? 18811Кто стоял за фишинговой империей RaccoonO365 и как спецслужбы ликвидировали угрозу... 18810Как злоумышленники могут использовать критическую уязвимость UEFI для взлома плат ASRock,... 18809Как наблюдать максимальное сближение с землей третьей межзвездной кометы 3I/ATLAS? 18808Передовая римская канализация не спасла легионеров от тяжелых кишечных инфекций 18807Способен ли вулканический щебень на дне океана работать как гигантская губка для... 18806Зонд NASA Europa Clipper успешно запечатлел межзвездную комету 3I/ATLAS во время полета к... 18805Может ли перенос лечения на первую половину дня удвоить выживаемость при раке легких? 18804Новая китайская группировка LongNosedGoblin использует легальные облачные сервисы для... 18803Генетический анализ раскрыл древнейший случай кровосмешения первой степени в итальянской...