Ssylka

Как дискретные диффузионные модели преодолевают недостатки авторегрессии в генерации текста?

Авторегрессионные модели, генерируя текст последовательно, страдают от потери глобальной согласованности, поскольку далекие токены слабо связаны. Дискретные диффузионные модели, маскируя слова и восстанавливая их параллельно, предлагают альтернативный путь, потенциально ускоряя генерацию и обеспечивая лучшую согласованность текста.
Как дискретные диффузионные модели преодолевают недостатки авторегрессии в генерации текста?
Изображение носит иллюстративный характер

Метод дискретной диффузии сталкивается с проблемой игнорирования связности между токенами, так как при «зашумлении» предполагается одновременная маскировка всего текста, а восстановление происходит через независимые вероятности для каждого слова. Energy-based diffusion language models (EDLM) решают эту проблему, оценивая локальную согласованность через функцию энергии, минимизация которой обеспечивает лучшее качество текста.

EDLM, на каждом шаге обратной диффузии, генерирует несколько вариантов, оценивает их энергию и выбирает вариант с наименьшей энергией, что соответствует наиболее вероятному и связному тексту. Для оценки энергии EDLM использует предобученные LLM или обучает её с помощью Noise Contrastive Estimation, что позволяет отличать реальные данные от шума.

Результаты тестирования EDLM на Text8 и OpenWebText показали, что модель достигла уровня производительности, сравнимого с авторегрессионными моделями, при этом значительно превзойдя другие дискретные диффузионные подходы. Это указывает на перспективность EDLM как конкурентоспособной альтернативы в области генерации текста.


Новое на сайте

18771Почему концепция «троянского коня» является ключом к успешному захвату внимания в... 18770Критические уязвимости FreePBX открывают возможность удаленного выполнения кода 18769Является ли «маленькая нога» неизвестным предком человека и какие небесные тела... 18768Оправдывает ли Xiaomi Smart Band 10 звание лучшего бюджетного трекера для новичков 18767Как группировка ShadyPanda использовала доверенные расширения для компрометации 4,3... 18766Межзвездная комета 3I/ATLAS под прицелом глобальной сети наблюдателей 18765Секрет вечности римского бетона: горячее смешивание и механизм самовосстановления 18764Рекордный семичасовой космический взрыв не поддается объяснению существующими научными... 18763Зачем черепахам панцирь: для защиты или рытья нор, и все ли умеют в нем прятаться? 18762Почему критическая уязвимость шестилетней давности в роутерах Sierra Wireless угрожает... 18761Как подросток пережил атаку льва 6200 лет назад и почему его похоронили как опасного... 18760Почему случайные травмы превращаются в вечные рисунки на теле? 18759Почему Apple экстренно закрывает уязвимости, используемые для атак на конкретных людей? 18758Какие открытия от Марса до темной материи меняют научную картину мира? 18757Как ультрагорячая супер-Земля TOI-561 b сумела сохранить плотную атмосферу в...