Ssylka

Как дискретные диффузионные модели преодолевают недостатки авторегрессии в генерации текста?

Авторегрессионные модели, генерируя текст последовательно, страдают от потери глобальной согласованности, поскольку далекие токены слабо связаны. Дискретные диффузионные модели, маскируя слова и восстанавливая их параллельно, предлагают альтернативный путь, потенциально ускоряя генерацию и обеспечивая лучшую согласованность текста.
Как дискретные диффузионные модели преодолевают недостатки авторегрессии в генерации текста?
Изображение носит иллюстративный характер

Метод дискретной диффузии сталкивается с проблемой игнорирования связности между токенами, так как при «зашумлении» предполагается одновременная маскировка всего текста, а восстановление происходит через независимые вероятности для каждого слова. Energy-based diffusion language models (EDLM) решают эту проблему, оценивая локальную согласованность через функцию энергии, минимизация которой обеспечивает лучшее качество текста.

EDLM, на каждом шаге обратной диффузии, генерирует несколько вариантов, оценивает их энергию и выбирает вариант с наименьшей энергией, что соответствует наиболее вероятному и связному тексту. Для оценки энергии EDLM использует предобученные LLM или обучает её с помощью Noise Contrastive Estimation, что позволяет отличать реальные данные от шума.

Результаты тестирования EDLM на Text8 и OpenWebText показали, что модель достигла уровня производительности, сравнимого с авторегрессионными моделями, при этом значительно превзойдя другие дискретные диффузионные подходы. Это указывает на перспективность EDLM как конкурентоспособной альтернативы в области генерации текста.


Новое на сайте

18513Почему подкаст, отвечающий на самые странные вопросы, возвращается в эфир? 18512Загадка маленького тирана: Nanotyrannus признан отдельным видом 18511Как обычная крыса превратилась в воздушного хищника для летучих мышей? 18510Карликовый тиран: новый скелет бросает вызов T. rex 18509Повреждение дренажной системы мозга: новая причина «химиотумана» 18508Brash: уязвимость, обрушивающая браузеры одной вредоносной ссылкой 18507Может ли цветок имитировать запах раненых муравьёв для своего выживания? 18506От уязвимостей к доказанному удару: новая эра кибербезопасности 18505Ловушки искусственного интеллекта: как избежать профессиональной катастрофы 18504Почему в ноябре 2025 года Сатурн временно лишится своих колец? 18503Сможет ли союз музыкального гиганта и ИИ-стартапа изменить будущее музыки? 18502Что делает атаку PhantomRaven на npm практически невидимой для сканеров? 18501Двойной рывок Китая: штурм луны и освоение орбиты 18500Искусственный интеллект принес Samsung рекордную выручку и миллиарды прибыли 18499Искусственный шторм: как нейросети создают фейковую реальность стихийных бедствий