Ssylka

Диффузионные языковые модели с невероятной скоростью – новая революция в области ИИ

Inception Labs, базирующаяся в Пало-Альто, была основана ведущими исследователями из Стэнфорда, UCLA и Корнелла под руководством Стэфано Эрмона, профессора Стэнфорда, признанного за прорывные исследования в области диффузионного моделирования. Команда компании включает ветеранов DeepMind, Microsoft, М⃰, OpenAI и NVIDIA, что позволяет интегрировать разработки в области flash attention, decision transformers и direct preference optimization.
Диффузионные языковые модели с невероятной скоростью – новая революция в области ИИ
Изображение носит иллюстративный характер

Новый подход основанных на диффузии больших языковых моделей радикально отличается от традиционных авторегрессивных методов, где генерация происходит последовательно, токен за токеном. Вместо этого dLLM создают целыми блоками текст через процесс «от грубого к тонкому» денойзинга, аналогичный постепенному появлению четкого изображения из размытого фона.

Продуктовая линейка Mercury представляет первый коммерческий масштаб диффузионных LLM, обеспечивая возможности генерации текста и кода с повышенной скоростью до 10 раз по сравнению с существующими моделями. Mercury Coder, наряду с вариантами Mercury Coder Mini и Mercury Coder Small, демонстрирует пропускную способность свыше 1000 токенов в секунду на стандартных GPU NVIDIA H100; Mercury Coder Mini, в частности, заняла второе место на Copilot Arena, работая примерно в 4 раза быстрее, чем GPT-4o Mini.

Публичные анонсы подчеркивают прорывную технологию: в LinkedIn-посте Джорджа Туръийлова от 26 февраля 2025 года (23:22:03.575Z) сообщается о «выходе из тени» компании с новым dLLM, основанном на разработке Стэфано Эрмона и его команды. Аналогичный месседж транслируется в пресс-релизе BusinessWire, опубликованном 26 февраля 2025 года (15:19–15:20 по местному времени в Пало-Альто), где акцент сделан на улучшении рассуждений, управляемой генерации и мульти-модальном анализе данных.

Технологические преимущества модели заключаются в параллельной генерации токенов, что существенно снижает задержки и затраты на GPU (до 10× экономии) при сохранении высококачественных результатов. Встроенные механизмы коррекции ошибок, поддержка функциональных вызовов и генерация структурированных данных позволяют успешно применять модель в задачах автоматической генерации кода и реального времени. Дополнительное понимание процесса обеспечивают публикации «Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution» и «Simple and Effective Masked Diffusion Language Models».

Diffusion Large Language Models Are Here play thumbnailUrl Диффузионные языковые модели с невероятной скоростью – новая революция в области ИИ
Mercury: A New Diffusion LLM In today's video, I dive into the exciting launch of Inception Labs' Mercury, the first commercial-grade diffusion large language model. Unlike traditional autoregressive models, Mercury uses a coarse-to-fine approach,…Диффузионные языковые модели с невероятной скоростью – новая революция в области ИИ - 11598
8M
True
2025-02-27T18:14:49+03:00
embedUrl


Технология доступна через интерактивное демо-пространство на , а также посредством API и решений для локального развертывания. Ресурсы компании, размещенные на сайте, предоставляют широкие возможности для сотрудничества, интеграции в корпоративные системы и дальнейшей тонкой настройки модели.

Обсуждения в профессиональных сообществах подтверждают интерес к диффузионному подходу: публикация Vaibhav Srivastav с заголовком «Large Language Diffusion with Masking (LLaDA) уже здесь – и их генерация выглядит чертовски круто!» вызвала активный отклик, а пользователи Hacker News отмечают преимущество открытого доступа к модели и значительный прирост производительности по сравнению с авторегрессивными аналогами.

Разработка технологий направлена на дальнейшее расширение функционала dLLM, включая выход в закрытую бета-версию чат-приложений, интеграцию сложных агентных систем с расширенными возможностями планирования и итеративного уточнения, а также усовершенствование контроля над структурой вывода. Эти шаги обещают задать новый стандарт работы как в крупных дата-центрах, так и на носимых устройствах и в корпоративной автоматизации.


Новое на сайте