Как дискретные диффузионные модели преодолевают недостатки авторегрессии в генерации текста?

Авторегрессионные модели, генерируя текст последовательно, страдают от потери глобальной согласованности, поскольку далекие токены слабо связаны. Дискретные диффузионные модели, маскируя слова и восстанавливая их параллельно, предлагают альтернативный путь, потенциально ускоряя генерацию и обеспечивая лучшую согласованность текста.
Как дискретные диффузионные модели преодолевают недостатки авторегрессии в генерации текста?
Изображение носит иллюстративный характер

Метод дискретной диффузии сталкивается с проблемой игнорирования связности между токенами, так как при «зашумлении» предполагается одновременная маскировка всего текста, а восстановление происходит через независимые вероятности для каждого слова. Energy-based diffusion language models (EDLM) решают эту проблему, оценивая локальную согласованность через функцию энергии, минимизация которой обеспечивает лучшее качество текста.

EDLM, на каждом шаге обратной диффузии, генерирует несколько вариантов, оценивает их энергию и выбирает вариант с наименьшей энергией, что соответствует наиболее вероятному и связному тексту. Для оценки энергии EDLM использует предобученные LLM или обучает её с помощью Noise Contrastive Estimation, что позволяет отличать реальные данные от шума.

Результаты тестирования EDLM на Text8 и OpenWebText показали, что модель достигла уровня производительности, сравнимого с авторегрессионными моделями, при этом значительно превзойдя другие дискретные диффузионные подходы. Это указывает на перспективность EDLM как конкурентоспособной альтернативы в области генерации текста.


Новое на сайте

19729Веб-шеллы на PHP, управляемые через куки: как злоумышленники закрепляются на серверах... 19728Как учёным впервые удалось составить полную карту нервов клитора? 19727Homo habilis: самый древний «человек», который, возможно, им не является 19726Как северокорейские хакеры взломали одну из самых популярных библиотек JavaScript 19725Почему риски от подрядчиков стали главной дырой в кибербезопасности 19724Как выживший во второй мировой придумал нападение гигантского кальмара 19723Что если вселенная никогда не начиналась с точки бесконечной плотности? 19722Доживёт ли комета MAPS до субботы? 19721Квантовый процессор IBM побил сразу два рекорда — что это меняет? 19720Как северная Корея похитила $285 миллионов у Drift через предподписанные транзакции? 19719Как хакеры через одну дыру в Next.js украли ключи от 766 серверов? 19718Artemis II покинул земную орбиту и летит к луне 19717NASA показало невиданные снимки кометы 3I/ATLAS и запечатлело старт лунной миссии Artemis... 19716Сифилис появился 4000 лет назад — или его находили не там, где искали? 19715Энергетический дисбаланс земли зашкаливает, и учёные не могут это объяснить
Ссылка