Когда Гессиан не нужен: альтернативный взгляд на оценку неопределенности в машинном обучении

Традиционные методы оценки неопределенности, использующие аппроксимацию Лапласа с вычислением Гессиана, часто оказываются ресурсозатратными и не всегда точными. Альтернативный подход, заменяющий Гессиан на единичную матрицу, может обеспечить более эффективное и точное определение неопределенности модели. Этот метод, получивший название Identity Curvature Laplace Approximation (ICLA), показывает сравнимые и даже лучшие результаты по сравнению с классическими методами аппроксимации Лапласа, а также некоторыми небайесовскими подходами, особенно в задачах обнаружения аномалий (out-of-distribution detection).
Когда Гессиан не нужен: альтернативный взгляд на оценку неопределенности в машинном обучении
Изображение носит иллюстративный характер

Аппроксимация Лапласа, использующая информацию о кривизне параметров модели (Гессиане), для оценки дисперсии распределения, является мощным инструментом в машинном обучении. Однако, вычисление Гессиана, требующее значительных вычислительных ресурсов, становится проблематичным для нейронных сетей с большим количеством параметров. Попытки аппроксимации Гессиана, такие как матрица Фишера или K-FAC, не всегда приводят к удовлетворительным результатам. В то же время, ICLA, использующий простую единичную матрицу вместо Гессиана, оказывается удивительно эффективным.

Исследования показали, что эффективность ICLA напрямую связана со сложностью данных, определяемой как средняя поклассовая косинусная близость кластеров эмбеддингов (MCCS). На датасетах с высокой разделимостью классов традиционная аппроксимация Лапласа работает хуже, чем ICLA. Это связано с тем, что Гессиан имеет спектральное распределение с длинным хвостом, что не соответствует структуре ковариации классов в таких данных. Таким образом, отказ от информации о кривизне (Гессиане) может не только ускорить вычисления, но и повысить точность оценки неопределенности.

В итоге, ICLA, заменяя Гессиан на единичную матрицу, демонстрирует значительное улучшение в оценке неопределенности модели, особенно на сложных данных с высокой разделимостью классов. Этот метод не только упрощает вычисления, но и позволяет создавать более безопасные и надежные системы машинного обучения, способные адекватно оценивать свою неуверенность в сложных и изменчивых условиях.


Новое на сайте

20072Эффект красоты решает исход собеседования до первых слов 20069Как черта характера крадёт деньги на переговорах 20068Карточная игра против главной дисфункции команды 20067Какие три нарратива способны провести компанию сквозь любой кризис? 20066Фотосинтез в глазах мышей: возможно ли это без превращения в растение? 20065СПКЯ стало СПМЯ: почему переименование болезни, затрагивающей миллионы женщин, заняло так... 20064Почему великая пирамида Гизы пережила все землетрясения за 4500 лет 20063Генетика Homo erectus: что зубная эмаль рассказала о наших предках 20062Кости в бухте Эребус: что кости моряков Франклина рассказывают спустя полтора века 20061Крупнейший плавучий ветрогенератор в мире: Китай испытывает установку у берегов Шанхая 20060Карие глаза младенца стали индиго после лечения от COVID-19 20058Почему серебряная чаша с Афиной пролежала в немецком лесу две тысячи лет? 20057Дыра в атмосфере солнца: вспышка достигла пика и может зажечь полярное сияние 20056Динго возрастом 950 лет: кто и зачем кормил могилу животного сотни лет?
Ссылка