Ssylka

Диффузионные языковые модели с невероятной скоростью – новая революция в области ИИ

Inception Labs, базирующаяся в Пало-Альто, была основана ведущими исследователями из Стэнфорда, UCLA и Корнелла под руководством Стэфано Эрмона, профессора Стэнфорда, признанного за прорывные исследования в области диффузионного моделирования. Команда компании включает ветеранов DeepMind, Microsoft, М⃰, OpenAI и NVIDIA, что позволяет интегрировать разработки в области flash attention, decision transformers и direct preference optimization.
Диффузионные языковые модели с невероятной скоростью – новая революция в области ИИ
Изображение носит иллюстративный характер

Новый подход основанных на диффузии больших языковых моделей радикально отличается от традиционных авторегрессивных методов, где генерация происходит последовательно, токен за токеном. Вместо этого dLLM создают целыми блоками текст через процесс «от грубого к тонкому» денойзинга, аналогичный постепенному появлению четкого изображения из размытого фона.

Продуктовая линейка Mercury представляет первый коммерческий масштаб диффузионных LLM, обеспечивая возможности генерации текста и кода с повышенной скоростью до 10 раз по сравнению с существующими моделями. Mercury Coder, наряду с вариантами Mercury Coder Mini и Mercury Coder Small, демонстрирует пропускную способность свыше 1000 токенов в секунду на стандартных GPU NVIDIA H100; Mercury Coder Mini, в частности, заняла второе место на Copilot Arena, работая примерно в 4 раза быстрее, чем GPT-4o Mini.

Публичные анонсы подчеркивают прорывную технологию: в LinkedIn-посте Джорджа Туръийлова от 26 февраля 2025 года (23:22:03.575Z) сообщается о «выходе из тени» компании с новым dLLM, основанном на разработке Стэфано Эрмона и его команды. Аналогичный месседж транслируется в пресс-релизе BusinessWire, опубликованном 26 февраля 2025 года (15:19–15:20 по местному времени в Пало-Альто), где акцент сделан на улучшении рассуждений, управляемой генерации и мульти-модальном анализе данных.

Технологические преимущества модели заключаются в параллельной генерации токенов, что существенно снижает задержки и затраты на GPU (до 10× экономии) при сохранении высококачественных результатов. Встроенные механизмы коррекции ошибок, поддержка функциональных вызовов и генерация структурированных данных позволяют успешно применять модель в задачах автоматической генерации кода и реального времени. Дополнительное понимание процесса обеспечивают публикации «Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution» и «Simple and Effective Masked Diffusion Language Models».

Diffusion Large Language Models Are Here play thumbnailUrl Диффузионные языковые модели с невероятной скоростью – новая революция в области ИИ
Mercury: A New Diffusion LLM In today's video, I dive into the exciting launch of Inception Labs' Mercury, the first commercial-grade diffusion large language model. Unlike traditional autoregressive models, Mercury uses a coarse-to-fine approach,…Диффузионные языковые модели с невероятной скоростью – новая революция в области ИИ - 11598
8M
True
2025-02-27T18:14:49+03:00
embedUrl


Технология доступна через интерактивное демо-пространство на , а также посредством API и решений для локального развертывания. Ресурсы компании, размещенные на сайте, предоставляют широкие возможности для сотрудничества, интеграции в корпоративные системы и дальнейшей тонкой настройки модели.

Обсуждения в профессиональных сообществах подтверждают интерес к диффузионному подходу: публикация Vaibhav Srivastav с заголовком «Large Language Diffusion with Masking (LLaDA) уже здесь – и их генерация выглядит чертовски круто!» вызвала активный отклик, а пользователи Hacker News отмечают преимущество открытого доступа к модели и значительный прирост производительности по сравнению с авторегрессивными аналогами.

Разработка технологий направлена на дальнейшее расширение функционала dLLM, включая выход в закрытую бета-версию чат-приложений, интеграцию сложных агентных систем с расширенными возможностями планирования и итеративного уточнения, а также усовершенствование контроля над структурой вывода. Эти шаги обещают задать новый стандарт работы как в крупных дата-центрах, так и на носимых устройствах и в корпоративной автоматизации.

Диффузионные большие языковые модели уже здесь.
rutubeplay


Сегодня Inception Labs представила модель Mercury — первую коммерческую диффузионную модель для генерации текстов (large language model, LLM). Традиционные крупные языковые модели, которыми мы привыкли пользоваться, являются авторегрессивными — они создают текст последовательно, токен за токеном. Недостатком такого подхода является более высокая стоимость вычислений и медленная скорость генерации текста. Интерес диффузионных языковых моделей заключается в том, что они создают ответы методом постепенного уточнения: от грубого к детализированному.

При первом проходе ответ получается крайне нечётким и зашумлённым. Это похоже на принцип работы диффузионных моделей для генерации изображений или видео, которые начинают с зашумленного представления картинки, постепенно делая её всё более чёткой и понятной с каждой последующей итерацией. В случае с текстом на первом этапе генерации ответ практически нечитаем, но с каждым шагом он становится всё более точным и осмысленным.

Mercury является первой коммерческой диффузионной языковой моделью такого уровня. Для сравнения, её производительность примерно соответствует моделям GPT-4 Omini и Claude 3.5 Haiku, однако Mercury работает в десять раз быстрее. Это объясняется принципиально иной архитектурой, заложенной в основу её работы. Например, модель GPT-4 Omini генерирует примерно 60-70 токенов в секунду, в то время как Mercury Coder Small достигает скорости около 750 токенов в секунду, а Mercury Coder Mini — свыше 1000 токенов в секунду. Одним из преимуществ Mercury является то, что для её запуска не требуются специализированные чипы — модель отлично работает на уже существующем оборудовании Nvidia H100. Это позволяет использовать уже имеющиеся аппаратные ресурсы без дополнительных затрат. При тестировании среди разработчиков в рамках среды Co-pilot модель Mercury заняла первое место по скорости и второе место по качеству генерации кода. Разработчики назвали Mercury самой быстрой LLM для программного кода на текущий момент. Для наглядности можно привести сравнение времени ответа на одинаковый запрос: Mercury выдала ответ всего за 6 секунд, ChatGPT справилась за 36 секунд, а Claude — за 28 секунд. На сайте Inception Labs доступна демонстрация модели с визуальным представлением процесса диффузии текста. Сначала модель выдаёт грубый ответ, затем за несколько итераций постепенно улучшает его, что наглядно демонстрируется в реальном времени. Разработчики Mercury подчёркивают, что современные авторегрессивные модели генерируют текст строго последовательно, слева направо, по одному токену за шаг. Этот подход требует больших вычислительных ресурсов, а генерация длинных логических цепочек приводит к резкому увеличению затрат на инференс и неприемлемо высокой задержке. По их мнению, для широкого распространения качественных AI-решений необходим принципиально новый подход, и диффузионные модели способны обеспечить такой прорыв. Поскольку диффузионные модели не ограничены необходимостью учитывать только предыдущие токены, они могут лучше структурировать свои ответы и более эффективно проводить логические рассуждения. Кроме того, благодаря постепенному уточнению, они способны исправлять собственные ошибки и предотвращать «галлюцинации» (генерацию некорректной информации). Именно этот подход уже доказал свою эффективность в генерации изображений, видео и аудио, что подтверждается успехом таких продуктов, как Sora, Midjourney и Riffusion.

Тем не менее, до сих пор диффузионные подходы не применялись успешно к дискретным данным (тексту и коду), и Mercury стала первой удачной реализацией этой идеи. Модель Mercury Coder поддерживает широкий спектр сценариев использования, включая RAG (извлечение и генерацию), использование инструментов и агентные рабочие процессы. Важной особенностью модели является возможность глобального улучшения качества ответов за счёт изменения нескольких токенов одновременно, что реализуется с помощью нейронной сети-трансформера, обученной на больших наборах данных. Результаты тестирования Mercury Coder выглядят весьма впечатляюще для первой версии диффузионной текстовой модели. По показателю HumanEval (оценке качества генерации кода человеком) модель набрала 88 и 90 баллов. По своей производительности она сопоставима с такими моделями, как Gemini 2.0 Flash-light, Claude 3.5 Haiku, GPT-4 Omini, Qwen и DeepSeek. Хотя Mercury пока не претендует на конкуренцию с крупнейшими моделями, уже сейчас её результаты очень сильны, и будет интересно наблюдать за дальнейшим развитием подобных диффузионных моделей в ближайшие годы. По скорости Mercury значительно превосходит другие модели. Даже оптимизированные по скорости авторегрессивные модели способны выдавать не более 200 токенов в секунду, тогда как Mercury Coder работает на обычной видеокарте Nvidia H100 со скоростью свыше 1000 токенов в секунду. Таким образом, Mercury работает в 5 раз быстрее самых скоростных авторегрессивных моделей и в 20 раз быстрее крупнейших моделей от ведущих компаний. Ранее добиться подобных скоростей можно было только с использованием специализированного оборудования, такого как чипы от Groq, Cerebras или SambaNova. Однако разработчики Mercury отмечают, что их алгоритмические улучшения не исключают, а наоборот дополняют аппаратное ускорение, и дополнительные приросты производительности возможны при использовании ещё более быстрых чипов. Будет особенно интересно оценить работу Mercury на новейших чипах Blackwell от Nvidia и увидеть, насколько возрастёт её и без того впечатляющая скорость. В заключение стоит отметить, что скорость, декларируемая разработчиками, должна будет подтвердиться в условиях реальной эксплуатации, когда модель станет доступна широкой аудитории и будет обрабатывать большое количество запросов одновременно. В любом случае, дальнейшее развитие и распространение диффузионных моделей обещает стать важным направлением в области искусственного интеллекта и существенно повлиять на рынок языковых моделей в ближайшие годы.


Новое на сайте