Как дискретные диффузионные модели преодолевают недостатки авторегрессии в генерации текста?

Авторегрессионные модели, генерируя текст последовательно, страдают от потери глобальной согласованности, поскольку далекие токены слабо связаны. Дискретные диффузионные модели, маскируя слова и восстанавливая их параллельно, предлагают альтернативный путь, потенциально ускоряя генерацию и обеспечивая лучшую согласованность текста.
Как дискретные диффузионные модели преодолевают недостатки авторегрессии в генерации текста?
Изображение носит иллюстративный характер

Метод дискретной диффузии сталкивается с проблемой игнорирования связности между токенами, так как при «зашумлении» предполагается одновременная маскировка всего текста, а восстановление происходит через независимые вероятности для каждого слова. Energy-based diffusion language models (EDLM) решают эту проблему, оценивая локальную согласованность через функцию энергии, минимизация которой обеспечивает лучшее качество текста.

EDLM, на каждом шаге обратной диффузии, генерирует несколько вариантов, оценивает их энергию и выбирает вариант с наименьшей энергией, что соответствует наиболее вероятному и связному тексту. Для оценки энергии EDLM использует предобученные LLM или обучает её с помощью Noise Contrastive Estimation, что позволяет отличать реальные данные от шума.

Результаты тестирования EDLM на Text8 и OpenWebText показали, что модель достигла уровня производительности, сравнимого с авторегрессионными моделями, при этом значительно превзойдя другие дискретные диффузионные подходы. Это указывает на перспективность EDLM как конкурентоспособной альтернативы в области генерации текста.


Новое на сайте

19905Зачем древние египтяне строили круглые храмы? 19904Планета, на которой вы живёте, но почти не знаете 19903Может ли анализ крови остановить рак печени ещё до его начала? 19902Кто такие GopherWhisper и зачем им монгольские чиновники? 19901«Вояджер-1» готовится к манёвру «большой взрыв»: NASA отключает приборы ради выживания 19900Почему вокруг Чатемских островов появилось светящееся кольцо из планктона? 19899Как взлом Vercel начался с Roblox-скрипта на чужом компьютере 19898Кто лежит в шотландских гробницах каменного века? 19897Почему две англосаксонские сестра и брат были похоронены в объятиях 1400 лет назад? 19896Гормон GDF15: найдена причина мучительного токсикоза у беременных 19895Почему хакеры Harvester прячут вредоносный код в папке «Zomato Pizza»? 19894Робот-гуманоид Panther от UniX AI претендует на место в каждом доме 19893Artemis застряла на земле: NASA не может лететь на луну без новых скафандров 19892Почему 20 000 промышленных устройств по всему миру оказались под угрозой взлома? 19891Зачем египетская мумия «проглотила» «Илиаду»?
Ссылка