Ssylka

Как дискретные диффузионные модели преодолевают недостатки авторегрессии в генерации текста?

Авторегрессионные модели, генерируя текст последовательно, страдают от потери глобальной согласованности, поскольку далекие токены слабо связаны. Дискретные диффузионные модели, маскируя слова и восстанавливая их параллельно, предлагают альтернативный путь, потенциально ускоряя генерацию и обеспечивая лучшую согласованность текста.
Как дискретные диффузионные модели преодолевают недостатки авторегрессии в генерации текста?
Изображение носит иллюстративный характер

Метод дискретной диффузии сталкивается с проблемой игнорирования связности между токенами, так как при «зашумлении» предполагается одновременная маскировка всего текста, а восстановление происходит через независимые вероятности для каждого слова. Energy-based diffusion language models (EDLM) решают эту проблему, оценивая локальную согласованность через функцию энергии, минимизация которой обеспечивает лучшее качество текста.

EDLM, на каждом шаге обратной диффузии, генерирует несколько вариантов, оценивает их энергию и выбирает вариант с наименьшей энергией, что соответствует наиболее вероятному и связному тексту. Для оценки энергии EDLM использует предобученные LLM или обучает её с помощью Noise Contrastive Estimation, что позволяет отличать реальные данные от шума.

Результаты тестирования EDLM на Text8 и OpenWebText показали, что модель достигла уровня производительности, сравнимого с авторегрессионными моделями, при этом значительно превзойдя другие дискретные диффузионные подходы. Это указывает на перспективность EDLM как конкурентоспособной альтернативы в области генерации текста.


Новое на сайте

19014Как уязвимость CodeBreach в AWS CodeBuild могла привести к глобальной атаке через ошибку... 19013Затерянный фрагмент древней плиты пионер меняет карту сейсмических угроз Калифорнии 19012Генетические мутации вызывают слепоту менее чем в 30% случаев вопреки прежним прогнозам 19011Завершено строительство космического телескопа Nancy Grace Roman для поиска ста тысяч... 19010Вязкость пространства и фононы вакуума как разгадка аномалий расширения вселенной 19009Приведет ли массовое плодоношение дерева Риму к рекордному росту популяции какапо? 19008Как уязвимость CVE-2026-23550 в плагине Modular DS позволяет захватить управление сайтом? 19007Может ли уличная драка французского авантюриста раскрыть кризис американского гражданства... 19006Может ли один клик по легитимной ссылке заставить Microsoft Copilot и другие ИИ тайно... 19005Утрата истинного мастерства в эпоху алгоритмов и скрытые механизмы человеческого... 19004Почему защита самих моделей ИИ становится бессмысленной, если уязвимыми остаются рабочие... 19003Какие устаревшие привычки уничтожают эффективность MTTR вашего SOC в 2026 году? 19002Критическая ошибка в GlobalProtect позволяет удаленно отключить защиту межсетевых экранов... 19001Как дешевые серверы RedVDS стали инструментом глобального мошенничества на 40 миллионов... 19000Являются ли обнаруженные телескопом «Джеймс Уэбб» загадочные объекты «коконами» для...