Ssylka

Как дискретные диффузионные модели преодолевают недостатки авторегрессии в генерации текста?

Авторегрессионные модели, генерируя текст последовательно, страдают от потери глобальной согласованности, поскольку далекие токены слабо связаны. Дискретные диффузионные модели, маскируя слова и восстанавливая их параллельно, предлагают альтернативный путь, потенциально ускоряя генерацию и обеспечивая лучшую согласованность текста.
Как дискретные диффузионные модели преодолевают недостатки авторегрессии в генерации текста?
Изображение носит иллюстративный характер

Метод дискретной диффузии сталкивается с проблемой игнорирования связности между токенами, так как при «зашумлении» предполагается одновременная маскировка всего текста, а восстановление происходит через независимые вероятности для каждого слова. Energy-based diffusion language models (EDLM) решают эту проблему, оценивая локальную согласованность через функцию энергии, минимизация которой обеспечивает лучшее качество текста.

EDLM, на каждом шаге обратной диффузии, генерирует несколько вариантов, оценивает их энергию и выбирает вариант с наименьшей энергией, что соответствует наиболее вероятному и связному тексту. Для оценки энергии EDLM использует предобученные LLM или обучает её с помощью Noise Contrastive Estimation, что позволяет отличать реальные данные от шума.

Результаты тестирования EDLM на Text8 и OpenWebText показали, что модель достигла уровня производительности, сравнимого с авторегрессионными моделями, при этом значительно превзойдя другие дискретные диффузионные подходы. Это указывает на перспективность EDLM как конкурентоспособной альтернативы в области генерации текста.


Новое на сайте

19045Новые векторы атак на искусственный интеллект от скрытых промптов в календаре до... 19044Как австрийская корова Вероника доказала науке способность скота к использованию... 19043Всегда ли зрители сомневались в реальности происходящего на экране и как кинематографисты... 19042Белковый анализ раскрыл использование гиппопотамов и ящериц в домашней медицине эпохи... 19041Как новая уязвимость StackWarp обходит аппаратную защиту процессоров AMD? 19040Счастье сотрудников как главный навигационный инструмент в эпоху искусственного интеллекта 19039Станет ли Motorola Moto Watch Fit идеальным бюджетным устройством для любителей йоги? 19038Почему слепая вера в облачную безопасность стоит миллионы долларов и как избежать... 19037Элитное англосаксонское захоронение и песчаные тени обнаружены на месте строительства аэс... 19036Зачем фальшивый блокировщик рекламы намеренно обрушивает браузеры пользователей для... 19035Как бронзовый диск из небры изменил наши представления о древней астрономии? 19034Откуда берется загадочное инфракрасное свечение вокруг сверхмассивных черных дыр? 19033Обнаружение древнейшей подтвержденной спиральной галактики с перемычкой COSMOS-74706 19032Микрогравитация на мкс превратила вирусы в эффективных убийц устойчивых бактерий 19031Как древние римляне управляли капиталом, чтобы обеспечить себе пассивный доход и защитить...