Почему в языковых моделях важны "сверхвеса"?

В больших языковых моделях обнаружены единичные параметры, так называемые «сверхвеса», которые оказывают непропорционально большое влияние на качество генерируемого текста. Удаление всего одного такого параметра может привести к генерации бессмысленного текста, в то время как удаление тысяч других, даже более крупных по величине параметров, влияет на качество модели незначительно. Эти «сверхвеса» являются ключом к пониманию и оптимизации работы таких сложных систем.
Почему в языковых моделях важны "сверхвеса"?
Изображение носит иллюстративный характер

«Сверхвеса» порождают «сверх-активации» — аномально большие значения активаций, которые распространяются по множеству слоев модели. Эти «сверх-активации» являются следствием «сверхвесов» и играют критическую роль в функционировании модели. Исключение «сверхвеса» приводит к резкому снижению величины «сверх-активации», подчеркивая причинно-следственную связь между ними. Идентификация и анализ «сверх-активаций» позволяют глубже понять механизм работы «сверхвесов».

Интересно, что местоположение «сверхвесов» в архитектуре модели специфично и может быть определено с помощью несложного метода, не требующего дополнительных данных. Этот метод основан на анализе распределения активаций на входе и выходе слоя mlp.down_proj. Обнаруженные координаты «сверхвесов» сохраняются даже после тонкой настройки модели, что позволяет использовать их для оптимизации моделирования и квантования.

Особое внимание следует уделять «сверхвесам» при квантизации моделей. Сохранение «сверхвесов» или их обработка с большей точностью, по сравнению с остальными параметрами, значительно улучшает качество модели после сжатия. Учёт «сверхвесов» позволяет создавать более компактные и эффективные модели, что важно для применения в условиях ограниченных вычислительных ресурсов. Этот подход является конкурентоспособным с другими современными методами квантования, такими как SmoothQuant.


Новое на сайте

19704Артемида II летит навстречу солнцу на пике его ярости 19703Комета, которая вращается задом наперёд 19702Microsoft обнаружила вредоносную кампанию с доставкой малвари через WhatsApp 19701Фишинг с динамическими PDF: как бразильская группировка атакует латинскую Америку и Европу 19700Почему блокировка AI-инструментов делает компании уязвимее, чем сами угрозы? 19699Экстремальные пожары, засухи и штормы возможны даже при умеренном потеплении 19698Крапивница от воды: редчайший диагноз, который врачи не могли разгадать 19697Северокорейские хакеры заразили npm-пакет Axios, нацелившись на кошельки разработчиков 19696Как утечка исходного кода Claude Code обнажила секретные режимы и спровоцировала волну... 19695Как взлом видеоконференций TrueConf превратил обновления в оружие против правительств... 19694Квантовые компьютеры взломают самое надёжное шифрование при 10 000 кубитах — почему это... 19693Взлом Axios: как украденный токен открыл хакерам доступ к 100 миллионам проектов 19692Что скрывала затопленная пещера в Техасе от учёных тысячи лет? 19691Как китайская борьба со смогом ударила по Арктике 19690Почему Google заставляет разработчиков Android раскрывать личность, а Apple ужесточает...
Ссылка