Меню

Как дискретные диффузионные модели преодолевают недостатки авторегрессии в генерации текста?

Террелл

Авторегрессионные модели, генерируя текст последовательно, страдают от потери глобальной согласованности, поскольку далекие токены слабо связаны. Дискретные диффузионные модели, маскируя слова и восстанавливая их параллельно, предлагают альтернативный путь, потенциально ускоряя генерацию и обеспечивая лучшую согласованность текста.
Как дискретные диффузионные модели преодолевают недостатки авторегрессии в генерации текста?

Как дискретные диффузионные модели преодолевают недостатки авторегрессии в генерации текста?

Изображение носит иллюстративный характер

Метод дискретной диффузии сталкивается с проблемой игнорирования связности между токенами, так как при «зашумлении» предполагается одновременная маскировка всего текста, а восстановление происходит через независимые вероятности для каждого слова. Energy-based diffusion language models (EDLM) решают эту проблему, оценивая локальную согласованность через функцию энергии, минимизация которой обеспечивает лучшее качество текста.

EDLM, на каждом шаге обратной диффузии, генерирует несколько вариантов, оценивает их энергию и выбирает вариант с наименьшей энергией, что соответствует наиболее вероятному и связному тексту. Для оценки энергии EDLM использует предобученные LLM или обучает её с помощью Noise Contrastive Estimation, что позволяет отличать реальные данные от шума.

Результаты тестирования EDLM на Text8 и OpenWebText показали, что модель достигла уровня производительности, сравнимого с авторегрессионными моделями, при этом значительно превзойдя другие дискретные диффузионные подходы. Это указывает на перспективность EDLM как конкурентоспособной альтернативы в области генерации текста.

Источник: derunat

← Предыдущее в разделе Следующее в разделе →

Вверх

Новое на сайте

Хакеры ToddyCat обновили арсенал для тотального взлома Outlook и Microsoft 365

Асимметрия безопасности: почему многомиллионные вложения в инструменты детекции не...

Как безопасно использовать репозитории Chocolatey и Winget, не подвергая инфраструктуру...

Масштабная утечка конфиденциальных данных через популярные онлайн-форматеры кода

Как расширение списка жертв взлома Gainsight связано с запуском вымогателя ShinySp1d3r от...

Как расширение Crypto Copilot незаметно похищает средства пользователей Solana на...

Как обновление политик безопасности Microsoft Entra ID в 2026 году искоренит атаки через...

Архитектурная уязвимость Microsoft Teams позволяет хакерам отключать защиту Defender

Вторая волна червеобразной атаки Shai-Hulud прорвала защиту экосистем npm и Maven

Смогут ли современные центры мониторинга безопасности пережить 2026 год и победить угрозы...

Как глубокие разломы земной коры способны «исцеляться» всего за несколько часов после...

Телескоп Fermi вероятно зафиксировал первый в истории сигнал от темной материи

Варварское расчленение и вековая тайна уничтожения мумии Тутанхамона

Загадочная стопа из буртеле подтвердила сосуществование разных видов предков человека

Уязвимость заброшенного домена в экосистеме Python открывает вектор атак на цепочку...

Меню

МенюЗакрыть