Ssylka

Когда Гессиан не нужен: альтернативный взгляд на оценку неопределенности в машинном обучении

Традиционные методы оценки неопределенности, использующие аппроксимацию Лапласа с вычислением Гессиана, часто оказываются ресурсозатратными и не всегда точными. Альтернативный подход, заменяющий Гессиан на единичную матрицу, может обеспечить более эффективное и точное определение неопределенности модели. Этот метод, получивший название Identity Curvature Laplace Approximation (ICLA), показывает сравнимые и даже лучшие результаты по сравнению с классическими методами аппроксимации Лапласа, а также некоторыми небайесовскими подходами, особенно в задачах обнаружения аномалий (out-of-distribution detection).
Когда Гессиан не нужен: альтернативный взгляд на оценку неопределенности в машинном обучении
Изображение носит иллюстративный характер

Аппроксимация Лапласа, использующая информацию о кривизне параметров модели (Гессиане), для оценки дисперсии распределения, является мощным инструментом в машинном обучении. Однако, вычисление Гессиана, требующее значительных вычислительных ресурсов, становится проблематичным для нейронных сетей с большим количеством параметров. Попытки аппроксимации Гессиана, такие как матрица Фишера или K-FAC, не всегда приводят к удовлетворительным результатам. В то же время, ICLA, использующий простую единичную матрицу вместо Гессиана, оказывается удивительно эффективным.

Исследования показали, что эффективность ICLA напрямую связана со сложностью данных, определяемой как средняя поклассовая косинусная близость кластеров эмбеддингов (MCCS). На датасетах с высокой разделимостью классов традиционная аппроксимация Лапласа работает хуже, чем ICLA. Это связано с тем, что Гессиан имеет спектральное распределение с длинным хвостом, что не соответствует структуре ковариации классов в таких данных. Таким образом, отказ от информации о кривизне (Гессиане) может не только ускорить вычисления, но и повысить точность оценки неопределенности.

В итоге, ICLA, заменяя Гессиан на единичную матрицу, демонстрирует значительное улучшение в оценке неопределенности модели, особенно на сложных данных с высокой разделимостью классов. Этот метод не только упрощает вычисления, но и позволяет создавать более безопасные и надежные системы машинного обучения, способные адекватно оценивать свою неуверенность в сложных и изменчивых условиях.


Новое на сайте

18666Почему мы отрицаем реальность, когда искусственный интеллект уже лишил нас когнитивного... 18665Химический след Тейи раскрыл тайну происхождения луны в ранней солнечной системе 18664Раскрывает ли извергающаяся межзвездная комета 3I/ATLAS химические тайны древней... 18663Масштабная кампания ShadyPanda заразила миллионы браузеров через официальные обновления 18662Как помидорные бои и персонажи Pixar помогают лидерам превратить корпоративную культуру 18661Как астероид 2024 YR4 стал первой исторической проверкой системы планетарной защиты и... 18660Агентные ИИ-браузеры как троянский конь новой эры кибербезопасности 18659Многовековая история изучения приливов от античных гипотез до синтеза Исаака Ньютона 18658Как выглядела защита от солнца римских легионеров в Египте 1600 лет назад? 18657Хакеры ToddyCat обновили арсенал для тотального взлома Outlook и Microsoft 365 18656Асимметрия безопасности: почему многомиллионные вложения в инструменты детекции не... 18655Как безопасно использовать репозитории Chocolatey и Winget, не подвергая инфраструктуру... 18654Масштабная утечка конфиденциальных данных через популярные онлайн-форматеры кода 18653Как расширение списка жертв взлома Gainsight связано с запуском вымогателя ShinySp1d3r 18652Как расширение Crypto Copilot незаметно похищает средства пользователей Solana на...