Меню

Может ли Janus-Pro составить конкуренцию Dall-E 3 в генерации изображений?

Евлалия

DeepSeek выпустила генеративную модель Janus-Pro с открытым исходным кодом, которая, по заявлению разработчиков, превосходит Dall-E 3 и Stable Diffusion в некоторых бенчмарках. Модель представлена в двух вариантах: с 1 и 7 миллиардами параметров. Janus-Pro способна понимать текст и изображения, а также генерировать изображения по текстовым описаниям.
Может ли Janus-Pro составить конкуренцию Dall-E 3 в генерации изображений?

Может ли Janus-Pro составить конкуренцию Dall-E 3 в генерации изображений?

Изображение носит иллюстративный характер

Технически, Janus-Pro использует раздельные методы кодирования для мультимодального понимания и генерации изображений, применяя SigLIP кодировщик для извлечения семантических признаков и VQ токенизатор для преобразования изображений в дискретные токены. В бенчмарках GenEval и DPG-Bench модель Janus-Pro-7B продемонстрировала более высокие результаты, чем Dall-E 3 и Stable Diffusion 3 Medium, что свидетельствует о ее способности следовать инструкциям и генерировать изображения.

Несмотря на заявленные успехи, качество сгенерированных Janus-Pro изображений вызвало сомнения. Нарушения пропорций лиц и тел, а также трудности с рендерингом текста, ставят под вопрос утверждения о превосходстве над Dall-E 3. К тому же, разрешение изображений ограничено 384x384 пикселями, что может сказываться на детализации.

Janus-Pro доступен для скачивания и использования на Hugging Face, где можно также опробовать демо-версию. Модель поддерживает как научное, так и коммерческое использование. Однако, как показала практика, заявленные возможности не всегда соответствуют действительности, и для получения качественных изображений может потребоваться дополнительная настройка. Несмотря на это, появление таких открытых моделей подстегивает развитие ИИ в области генерации изображений.

Источник: NeyroEntuziast

← Предыдущее в разделе Следующее в разделе →

Вверх

Новое на сайте

Как новые китайские киберкампании взламывают госструктуры Юго-Восточной Азии?

Культ священного манго и закат эпохи хунвейбинов в маоистском Китае

Готовы ли вы к эре коэффициента адаптивности, когда IQ и EQ больше не гарантируют успех?

Иранская группировка RedKitten применяет сгенерированный нейросетями код для кибершпионажа

Как новая волна голосового фишинга в стиле ShinyHunters обходит многофакторную...

Почему баски стали главными пастухами Америки: врожденный дар или расовый миф?

Бывший инженер Google осужден за экономический шпионаж и передачу секретов искусственного...

Насколько критичны новые уязвимости SmarterMail и почему их немедленное исправление...

Истинный контроль и природа человеческого мастерства: от учения эпиктета до современной...

Критические уязвимости нулевого дня в Ivanti EPMM активно эксплуатируются злоумышленниками

Почему биология и социальное давление толкают элиту на смертельный риск ради славы и...

Почему сотни энергетических объектов по всему миру остаются критически уязвимыми перед...

Возможен ли бесконечный полет дронов благодаря новой системе лазерной подзарядки?

Химический анализ впервые подтвердил использование человеческих экскрементов в римской...

Как искусственный интеллект AnomalyMatch всего за два дня обнаружил 1300 неизвестных...

Меню

МенюЗакрыть