Почему в языковых моделях важны "сверхвеса"?

В больших языковых моделях обнаружены единичные параметры, так называемые «сверхвеса», которые оказывают непропорционально большое влияние на качество генерируемого текста. Удаление всего одного такого параметра может привести к генерации бессмысленного текста, в то время как удаление тысяч других, даже более крупных по величине параметров, влияет на качество модели незначительно. Эти «сверхвеса» являются ключом к пониманию и оптимизации работы таких сложных систем.
Почему в языковых моделях важны "сверхвеса"?
Изображение носит иллюстративный характер

«Сверхвеса» порождают «сверх-активации» — аномально большие значения активаций, которые распространяются по множеству слоев модели. Эти «сверх-активации» являются следствием «сверхвесов» и играют критическую роль в функционировании модели. Исключение «сверхвеса» приводит к резкому снижению величины «сверх-активации», подчеркивая причинно-следственную связь между ними. Идентификация и анализ «сверх-активаций» позволяют глубже понять механизм работы «сверхвесов».

Интересно, что местоположение «сверхвесов» в архитектуре модели специфично и может быть определено с помощью несложного метода, не требующего дополнительных данных. Этот метод основан на анализе распределения активаций на входе и выходе слоя mlp.down_proj. Обнаруженные координаты «сверхвесов» сохраняются даже после тонкой настройки модели, что позволяет использовать их для оптимизации моделирования и квантования.

Особое внимание следует уделять «сверхвесам» при квантизации моделей. Сохранение «сверхвесов» или их обработка с большей точностью, по сравнению с остальными параметрами, значительно улучшает качество модели после сжатия. Учёт «сверхвесов» позволяет создавать более компактные и эффективные модели, что важно для применения в условиях ограниченных вычислительных ресурсов. Этот подход является конкурентоспособным с другими современными методами квантования, такими как SmoothQuant.


Новое на сайте

20065[b]СПКЯ стало СПМЯ: почему переименование болезни, затрагивающей миллионы женщин, заняло... 20064[b]Почему великая пирамида Гизы пережила все землетрясения за 4500 лет[/b] 20063[b]Генетика Homo erectus: что зубная эмаль рассказала о наших предках[/b] 20062[b]Кости в бухте эребус: что кости моряков Франклина рассказывают спустя полтора века[/b] 20061[b]Крупнейший плавучий ветрогенератор в мире: Китай испытывает установку у берегов... 20060[b]Карие глаза младенца стали индиго после лечения от COVID-19[/b] 20058[b]Почему серебряная чаша с Афиной пролежала в немецком лесу две тысячи лет?[/b] 20057[b]Дыра в атмосфере солнца: вспышка достигла пика и может зажечь полярное сияние[/b] 20056[b]Динго возрастом 950 лет: кто и зачем кормил могилу животного сотни лет?[/b] 20055[b]Томоэ гозэн: женщина-самурай, которая существовала на самом деле[/b] 20054[b]Что видели астронавты «Аполлона-12» над лунным горизонтом?[/b] 20053[b]Восковой блокнот на латыни и шёлковая туалетная бумага: кто посещал средневековый... 20052[b]Хантавирус на борту: 41 человек под наблюдением после рейса MV Hondius[/b] 20051[b]Зелёные камни в пещере Пиренеев: четыре тысячи лет медной металлургии[/b]
Ссылка