Ssylka

Ускорение инференса больших языковых моделей

Для ускорения генерации текста большими языковыми моделями (LLM) применяют различные алгоритмы, нацеленные на сокращение количества вычислений, необходимых для генерации каждого токена. Эти методы эксплуатируют неоднородность процесса генерации текста, когда некоторые токены предсказуемы, а другие требуют полных вычислений.
Ускорение инференса больших языковых моделей
Изображение носит иллюстративный характер

Спекулятивный декодинг использует «драфт» модель, меньшую и более быструю, для предсказания последовательности токенов. Затем эти «спекулятивные» токены проверяются основной моделью, и принимаются или отклоняются с определенной вероятностью. Lookahead декодинг идет дальше, используя хеш-таблицы для хранения и повторного использования принятых последовательностей токенов, дополнительно повышая стабильность и скорость.

Другие подходы, такие как early exit и skip decode, требуют переобучения модели и добавления дополнительных слоев или модификации процесса обучения, что является более сложным, но может привести к существенному ускорению. Методы, основанные на предсказании нескольких токенов за раз, такие как Medusa и Eagle, достигают высокой скорости за счет обучения дополнительных голов или «тушки» модели, предсказывающих несколько токенов, что позволяет эффективнее использовать ресурсы. Eagle использует идею спекулятивного декодирования, обучая небольшую тушку и комбинируя ее с весами основной модели.

Выбор конкретного метода зависит от доступных ресурсов, возможности дообучения модели и поддерживаемых фреймворков. Lookahead является хорошим вариантом, когда нет ресурсов на обучение. Спекулятивный декодинг прост в реализации при наличии draft модели. Методы Eagle/Medusa, хоть и сложнее, при наличии ресурсов могут обеспечить наибольшее ускорение.


Новое на сайте

18687Кем на самом деле были мифические «покорители неба» и как генетика раскрыла тысячелетнюю... 18686Астрономы обнаружили крупнейшую вращающуюся структуру во вселенной протяженностью 5,5... 18685Критическая уязвимость React Server Components с максимальным рейтингом опасности... 18684Критическая уязвимость в плагине King Addons для Elementor позволяет хакерам получать... 18683Столетний температурный рекорд долины смерти оказался результатом человеческой ошибки 18682Почему пользователи чаще эксплуатируют алгоритмы с «женскими» признаками, чем с... 18681Как превратить подрывную технологию ИИ в контролируемый стратегический ресурс? 18680Телескоп Джеймс Уэбб раскрыл детали стремительного разрушения атмосферы уникальной... 18679Почему диета из сырых лягушек привела к тяжелому поражению легких? 18678Способны ли три критические уязвимости в Picklescan открыть дорогу атакам на цепочки... 18677Как поддельные инструменты EVM на crates.io открывали доступ к системам тысяч... 18676Закон максимальной случайности и универсальная математика разрушения материалов 18675Символ падения власти: тайна древнего захоронения женщины с перевернутой диадемой 18674Индия вводит жесткую привязку мессенджеров к активным SIM-картам для борьбы с... 18673Почему вернувшаяся кампания GlassWorm угрожает разработчикам через 24 вредоносных...