Почему в языковых моделях важны "сверхвеса"?

В больших языковых моделях обнаружены единичные параметры, так называемые «сверхвеса», которые оказывают непропорционально большое влияние на качество генерируемого текста. Удаление всего одного такого параметра может привести к генерации бессмысленного текста, в то время как удаление тысяч других, даже более крупных по величине параметров, влияет на качество модели незначительно. Эти «сверхвеса» являются ключом к пониманию и оптимизации работы таких сложных систем.
Почему в языковых моделях важны "сверхвеса"?
Изображение носит иллюстративный характер

«Сверхвеса» порождают «сверх-активации» — аномально большие значения активаций, которые распространяются по множеству слоев модели. Эти «сверх-активации» являются следствием «сверхвесов» и играют критическую роль в функционировании модели. Исключение «сверхвеса» приводит к резкому снижению величины «сверх-активации», подчеркивая причинно-следственную связь между ними. Идентификация и анализ «сверх-активаций» позволяют глубже понять механизм работы «сверхвесов».

Интересно, что местоположение «сверхвесов» в архитектуре модели специфично и может быть определено с помощью несложного метода, не требующего дополнительных данных. Этот метод основан на анализе распределения активаций на входе и выходе слоя mlp.down_proj. Обнаруженные координаты «сверхвесов» сохраняются даже после тонкой настройки модели, что позволяет использовать их для оптимизации моделирования и квантования.

Особое внимание следует уделять «сверхвесам» при квантизации моделей. Сохранение «сверхвесов» или их обработка с большей точностью, по сравнению с остальными параметрами, значительно улучшает качество модели после сжатия. Учёт «сверхвесов» позволяет создавать более компактные и эффективные модели, что важно для применения в условиях ограниченных вычислительных ресурсов. Этот подход является конкурентоспособным с другими современными методами квантования, такими как SmoothQuant.


Новое на сайте

19905Зачем древние египтяне строили круглые храмы? 19904Планета, на которой вы живёте, но почти не знаете 19903Может ли анализ крови остановить рак печени ещё до его начала? 19902Кто такие GopherWhisper и зачем им монгольские чиновники? 19901«Вояджер-1» готовится к манёвру «большой взрыв»: NASA отключает приборы ради выживания 19900Почему вокруг Чатемских островов появилось светящееся кольцо из планктона? 19899Как взлом Vercel начался с Roblox-скрипта на чужом компьютере 19898Кто лежит в шотландских гробницах каменного века? 19897Почему две англосаксонские сестра и брат были похоронены в объятиях 1400 лет назад? 19896Гормон GDF15: найдена причина мучительного токсикоза у беременных 19895Почему хакеры Harvester прячут вредоносный код в папке «Zomato Pizza»? 19894Робот-гуманоид Panther от UniX AI претендует на место в каждом доме 19893Artemis застряла на земле: NASA не может лететь на луну без новых скафандров 19892Почему 20 000 промышленных устройств по всему миру оказались под угрозой взлома? 19891Зачем египетская мумия «проглотила» «Илиаду»?
Ссылка