Когда Гессиан не нужен: альтернативный взгляд на оценку неопределенности в машинном обучении

Традиционные методы оценки неопределенности, использующие аппроксимацию Лапласа с вычислением Гессиана, часто оказываются ресурсозатратными и не всегда точными. Альтернативный подход, заменяющий Гессиан на единичную матрицу, может обеспечить более эффективное и точное определение неопределенности модели. Этот метод, получивший название Identity Curvature Laplace Approximation (ICLA), показывает сравнимые и даже лучшие результаты по сравнению с классическими методами аппроксимации Лапласа, а также некоторыми небайесовскими подходами, особенно в задачах обнаружения аномалий (out-of-distribution detection).
Когда Гессиан не нужен: альтернативный взгляд на оценку неопределенности в машинном обучении
Изображение носит иллюстративный характер

Аппроксимация Лапласа, использующая информацию о кривизне параметров модели (Гессиане), для оценки дисперсии распределения, является мощным инструментом в машинном обучении. Однако, вычисление Гессиана, требующее значительных вычислительных ресурсов, становится проблематичным для нейронных сетей с большим количеством параметров. Попытки аппроксимации Гессиана, такие как матрица Фишера или K-FAC, не всегда приводят к удовлетворительным результатам. В то же время, ICLA, использующий простую единичную матрицу вместо Гессиана, оказывается удивительно эффективным.

Исследования показали, что эффективность ICLA напрямую связана со сложностью данных, определяемой как средняя поклассовая косинусная близость кластеров эмбеддингов (MCCS). На датасетах с высокой разделимостью классов традиционная аппроксимация Лапласа работает хуже, чем ICLA. Это связано с тем, что Гессиан имеет спектральное распределение с длинным хвостом, что не соответствует структуре ковариации классов в таких данных. Таким образом, отказ от информации о кривизне (Гессиане) может не только ускорить вычисления, но и повысить точность оценки неопределенности.

В итоге, ICLA, заменяя Гессиан на единичную матрицу, демонстрирует значительное улучшение в оценке неопределенности модели, особенно на сложных данных с высокой разделимостью классов. Этот метод не только упрощает вычисления, но и позволяет создавать более безопасные и надежные системы машинного обучения, способные адекватно оценивать свою неуверенность в сложных и изменчивых условиях.


Новое на сайте

19989Шесть историй, которые умещаются на ладони 19986Как 30 000 аккаунтов Facebook оказались в руках вьетнамских хакеров? 19985LofyGang вернулась: как бразильские хакеры охотятся на геймеров через поддельные читы 19984Автономная проверка защиты: как не отстать от ИИ-атак 19983Взлом Trellix: хакеры добрались до исходного кода одной из ведущих компаний по... 19982Почему почти 3000 монет в норвежском поле перевернули представление о викингах? 19981Как поддельная CAPTCHA опустошает ваш счёт и крадёт криптовалюту? 19980Слежка за каждым шагом: как ИИ превращает государство в машину тотального контроля 19979Как хакеры грабят компании через звонок в «техподдержку» 19978Почему именно Нью-Йорк стал самым уязвимым городом восточного побережья перед... 19977Как одна команда git push открывала доступ к миллионам репозиториев 19976Зачем древние народы убивали ножами и мечами: оружие как основа власти 19975Как Python-бэкдор DEEPDOOR крадёт ваши облачные пароли незаметно? 19974Послание в бутылке: математика невозможного 19973Почему ИИ-инфраструктура стала новой целью хакеров быстрее, чем ждали все?
Ссылка