Ускорение инференса больших языковых моделей

Для ускорения генерации текста большими языковыми моделями (LLM) применяют различные алгоритмы, нацеленные на сокращение количества вычислений, необходимых для генерации каждого токена. Эти методы эксплуатируют неоднородность процесса генерации текста, когда некоторые токены предсказуемы, а другие требуют полных вычислений.
Ускорение инференса больших языковых моделей
Изображение носит иллюстративный характер

Спекулятивный декодинг использует «драфт» модель, меньшую и более быструю, для предсказания последовательности токенов. Затем эти «спекулятивные» токены проверяются основной моделью, и принимаются или отклоняются с определенной вероятностью. Lookahead декодинг идет дальше, используя хеш-таблицы для хранения и повторного использования принятых последовательностей токенов, дополнительно повышая стабильность и скорость.

Другие подходы, такие как early exit и skip decode, требуют переобучения модели и добавления дополнительных слоев или модификации процесса обучения, что является более сложным, но может привести к существенному ускорению. Методы, основанные на предсказании нескольких токенов за раз, такие как Medusa и Eagle, достигают высокой скорости за счет обучения дополнительных голов или «тушки» модели, предсказывающих несколько токенов, что позволяет эффективнее использовать ресурсы. Eagle использует идею спекулятивного декодирования, обучая небольшую тушку и комбинируя ее с весами основной модели.

Выбор конкретного метода зависит от доступных ресурсов, возможности дообучения модели и поддерживаемых фреймворков. Lookahead является хорошим вариантом, когда нет ресурсов на обучение. Спекулятивный декодинг прост в реализации при наличии draft модели. Методы Eagle/Medusa, хоть и сложнее, при наличии ресурсов могут обеспечить наибольшее ускорение.


Новое на сайте

19521Банковский троян VENON на Rust атакует Бразилию с помощью девяти техник обхода защиты 19520Бонобо агрессивны не меньше шимпанзе, но всё решают самки 19519Почему 600-килограммовый зонд NASA падает на Землю из-за солнечной активности? 19518«Липовый календарь»: как расписание превращает работников в расходный материал 19517Вредоносные Rust-пакеты и ИИ-бот крадут секреты разработчиков через CI/CD-пайплайны 19516Как хакеры за 72 часа превратили npm-пакет в ключ от целого облака AWS 19515Как WebDAV-диск и поддельная капча помогают обойти антивирус? 19514Могут ли простые числа скрываться внутри чёрных дыр? 19513Метеорит пробил крышу дома в Германии — откуда взялся огненный шар над Европой? 19512Уязвимости LeakyLooker в Google Looker Studio открывали доступ к чужим базам данных 19511Почему тысячи серверов оказываются открытой дверью для хакеров, хотя могли бы ею не быть? 19510Как исследователи за четыре минуты заставили ИИ-браузер Perplexity Comet попасться на... 19509Может ли женщина без влагалища и шейки матки зачать ребёнка естественным путём? 19508Зачем учёные из Вены создали QR-код, который невозможно увидеть без электронного... 19507Девять уязвимостей CrackArmor позволяют получить root-доступ через модуль безопасности...
Ссылка