Почему в языковых моделях важны "сверхвеса"?

В больших языковых моделях обнаружены единичные параметры, так называемые «сверхвеса», которые оказывают непропорционально большое влияние на качество генерируемого текста. Удаление всего одного такого параметра может привести к генерации бессмысленного текста, в то время как удаление тысяч других, даже более крупных по величине параметров, влияет на качество модели незначительно. Эти «сверхвеса» являются ключом к пониманию и оптимизации работы таких сложных систем.
Почему в языковых моделях важны "сверхвеса"?
Изображение носит иллюстративный характер

«Сверхвеса» порождают «сверх-активации» — аномально большие значения активаций, которые распространяются по множеству слоев модели. Эти «сверх-активации» являются следствием «сверхвесов» и играют критическую роль в функционировании модели. Исключение «сверхвеса» приводит к резкому снижению величины «сверх-активации», подчеркивая причинно-следственную связь между ними. Идентификация и анализ «сверх-активаций» позволяют глубже понять механизм работы «сверхвесов».

Интересно, что местоположение «сверхвесов» в архитектуре модели специфично и может быть определено с помощью несложного метода, не требующего дополнительных данных. Этот метод основан на анализе распределения активаций на входе и выходе слоя mlp.down_proj. Обнаруженные координаты «сверхвесов» сохраняются даже после тонкой настройки модели, что позволяет использовать их для оптимизации моделирования и квантования.

Особое внимание следует уделять «сверхвесам» при квантизации моделей. Сохранение «сверхвесов» или их обработка с большей точностью, по сравнению с остальными параметрами, значительно улучшает качество модели после сжатия. Учёт «сверхвесов» позволяет создавать более компактные и эффективные модели, что важно для применения в условиях ограниченных вычислительных ресурсов. Этот подход является конкурентоспособным с другими современными методами квантования, такими как SmoothQuant.


Новое на сайте

19193Критическая угроза полного контроля: SolarWinds экстренно закрыла четыре уязвимости в... 19192Почему внедрение команд операционной системы в FileZen заставило CISA требовать... 19191Могут ли безобидные текстовые промпты для нейросетей стать самым разрушительным... 19190Как 9 древних правил Конфуция помогают обрести эмоциональный интеллект и победить стресс... 19189Почему экономика, а не высокие идеалы, стала истинным двигателем сопротивления в... 19188Критическая уязвимость в решениях BeyondTrust спровоцировала глобальную волну кражи... 19187Эволюция угроз: атака на цепочку поставок ИИ-ассистента Cline CLI через уязвимость... 19186Как фальшивая проверка Cloudflare в кампании ClickFix скрыто внедряет новый троян... 19185Почему гендерно-нейтральные корпоративные политики становятся главным инструментом... 19184Как искусственный интеллект уничтожил временной зазор между обнаружением уязвимости и... 19183Банковский троян Massiv маскируется под IPTV для захвата контроля над Android 19182Как шпионская кампания CRESCENTHARVEST использует социальную инженерию для кражи данных... 19181Как критическая уязвимость в телефонах Grandstream открывает хакерам доступ к... 19180Почему операционная непрерывность становится единственным ответом на перманентную... 19179Критические уязвимости в популярных расширениях VS Code угрожают миллионам разработчиков
Ссылка