Как правильно оценивать LLM-системы?

Оценка LLM-систем выходит за рамки тестирования самих языковых моделей. Системы LLM включают в себя дополнительные компоненты, такие как вызовы функций и системы поиска, требующие более детального анализа. Оценка системы LLM предполагает оценку каждого компонента, а не только финального результата. Различают два типа оценок: автономная (офлайн) и в реальном времени.
Как правильно оценивать LLM-системы?
Изображение носит иллюстративный характер

Для автономной оценки создаются тестовые кейсы, каждый из которых содержит входные данные, фактические и ожидаемые выходные данные, контекст извлечения и контекст. Набор таких кейсов формирует оценочный датасет. Метрики оценки LLM должны использовать подход LLM-as-a-judge, то есть когда LLM используется для оценки результатов. Метрики бывают эталонные и безэталонные. Эталонные метрики обеспечивают более точные результаты, но требуют предварительно подготовленных идеальных ответов. Бенчмарки системы LLM являются кастомными и состоят из набора данных для оценки и метрик.

Оценка в реальном времени позволяет анализировать ответы системы в рабочей среде. Это особенно важно для выявления слабых мест, не охваченных тестовыми кейсами для автономной оценки. В реальном времени используются безэталонные метрики, которые позволяют отбирать проблемные ответы для последующей оценки и добавления в датасет для автономной оценки.

Примерами использования являются чат-боты QA и системы Text-to-SQL. Для чат-ботов QA важны метрики корректности ответа и полноты контекста. Для систем Text-to-SQL — метрики корректности SQL-запроса и полноты контекста, необходимого для составления запроса. Оба этих варианта используют RAG архитектуру.


Новое на сайте

19751Лекарство от диабета первого типа: шутка про «пять лет» перестаёт быть шуткой 19750Псевдонаука на службе рабства: как учёные XIX века торговали теориями о смешанной крови 19749Как SOC-команды теряют время на многоплатформенных атаках и как это остановить 19748Как люди научились жить там, где жить невозможно? 19747Рабочий ноутбук разработчика стал главной целью хакеров 19746Может ли песок решить главную проблему возобновляемой энергетики? 19745Как группировки Qilin и Warlock обезоруживают антивирусы через уязвимые драйверы 19744Самые прожорливые чёрные дыры во вселенной остаются без еды 19743Artemis: момент, который определит целое поколение 19742Почему в горах реже болеют диабетом? 19741Что скрывается подо льдами Антарктиды и почему страны могут начать за это бороться? 19740ДНК моркови и красного коралла на туринской плащанице 19739Что нового нашёл телескоп NASA в остатках сверхновой, которую китайские астрономы... 19738Куда исчезла минойская цивилизация 1973736 вредоносных npm-пакетов под видом плагинов Strapi: охота на криптовалютную платформу
Ссылка