Ssylka

Ускорение инференса больших языковых моделей

Для ускорения генерации текста большими языковыми моделями (LLM) применяют различные алгоритмы, нацеленные на сокращение количества вычислений, необходимых для генерации каждого токена. Эти методы эксплуатируют неоднородность процесса генерации текста, когда некоторые токены предсказуемы, а другие требуют полных вычислений.
Ускорение инференса больших языковых моделей
Изображение носит иллюстративный характер

Спекулятивный декодинг использует «драфт» модель, меньшую и более быструю, для предсказания последовательности токенов. Затем эти «спекулятивные» токены проверяются основной моделью, и принимаются или отклоняются с определенной вероятностью. Lookahead декодинг идет дальше, используя хеш-таблицы для хранения и повторного использования принятых последовательностей токенов, дополнительно повышая стабильность и скорость.

Другие подходы, такие как early exit и skip decode, требуют переобучения модели и добавления дополнительных слоев или модификации процесса обучения, что является более сложным, но может привести к существенному ускорению. Методы, основанные на предсказании нескольких токенов за раз, такие как Medusa и Eagle, достигают высокой скорости за счет обучения дополнительных голов или «тушки» модели, предсказывающих несколько токенов, что позволяет эффективнее использовать ресурсы. Eagle использует идею спекулятивного декодирования, обучая небольшую тушку и комбинируя ее с весами основной модели.

Выбор конкретного метода зависит от доступных ресурсов, возможности дообучения модели и поддерживаемых фреймворков. Lookahead является хорошим вариантом, когда нет ресурсов на обучение. Спекулятивный декодинг прост в реализации при наличии draft модели. Методы Eagle/Medusa, хоть и сложнее, при наличии ресурсов могут обеспечить наибольшее ускорение.


Новое на сайте

19033Обнаружение древнейшей подтвержденной спиральной галактики с перемычкой COSMOS-74706 19032Микрогравитация на мкс превратила вирусы в эффективных убийц устойчивых бактерий 19031Как древние римляне управляли капиталом, чтобы обеспечить себе пассивный доход и защитить... 19030Миссия Pandora: новый инструмент NASA для калибровки данных телескопа «Джеймс Уэбб» 19029Телескоп Джеймс Уэбб запечатлел «неудавшиеся звезды» в звездном скоплении вестерлунд 2 19028Как «пенопластовые» планеты в системе V1298 Tau стали недостающим звеном в понимании... 19027Возможно ли одновременное глобальное отключение всего мирового интернета? 19026Станет ли бактериальная система самоуничтожения SPARDA более гибким инструментом... 19025Насколько опасной и грязной была вода в древнейших банях Помпей? 19024Гравитационная ориентация и структура космических плоскостей от земли до сверхскоплений 19023Сколько частей тела и органов можно потерять, чтобы остаться в живых? 19022Зачем Сэм Альтман решил внедрить рекламу в бесплатные версии ChatGPT? 19021Хитроумная маскировка вредоноса GootLoader через тысячи склеенных архивов 19020Удастся ли знаменитому археологу Захи Хавассу найти гробницу Нефертити до ухода на покой? 19019Действительно ли «зомби-клетки» провоцируют самую распространенную форму эпилепсии и...