Как правильно оценивать LLM-системы?

Оценка LLM-систем выходит за рамки тестирования самих языковых моделей. Системы LLM включают в себя дополнительные компоненты, такие как вызовы функций и системы поиска, требующие более детального анализа. Оценка системы LLM предполагает оценку каждого компонента, а не только финального результата. Различают два типа оценок: автономная (офлайн) и в реальном времени.
Как правильно оценивать LLM-системы?
Изображение носит иллюстративный характер

Для автономной оценки создаются тестовые кейсы, каждый из которых содержит входные данные, фактические и ожидаемые выходные данные, контекст извлечения и контекст. Набор таких кейсов формирует оценочный датасет. Метрики оценки LLM должны использовать подход LLM-as-a-judge, то есть когда LLM используется для оценки результатов. Метрики бывают эталонные и безэталонные. Эталонные метрики обеспечивают более точные результаты, но требуют предварительно подготовленных идеальных ответов. Бенчмарки системы LLM являются кастомными и состоят из набора данных для оценки и метрик.

Оценка в реальном времени позволяет анализировать ответы системы в рабочей среде. Это особенно важно для выявления слабых мест, не охваченных тестовыми кейсами для автономной оценки. В реальном времени используются безэталонные метрики, которые позволяют отбирать проблемные ответы для последующей оценки и добавления в датасет для автономной оценки.

Примерами использования являются чат-боты QA и системы Text-to-SQL. Для чат-ботов QA важны метрики корректности ответа и полноты контекста. Для систем Text-to-SQL — метрики корректности SQL-запроса и полноты контекста, необходимого для составления запроса. Оба этих варианта используют RAG архитектуру.


Новое на сайте

19857Острова как политический побег: от Атлантиды до плавучих государств Питера Тиля 19856Яйца, которые спасли предков млекопитающих от худшего апокалипсиса на Земле? 19855Могут ли омары чувствовать боль, и почему учёные требуют запретить варить их живыми? 19854Премия в $3 млн за первое CRISPR-лечение серповидноклеточной анемии 19853Почему сотрудники игнорируют корпоративное обучение и как это исправить 19852Тинтагель: место силы Артура или красивая легенда? 19851Голоса в голове сказали правду: что происходит, когда галлюцинации ставят диагноз точнее... 19850Куда исчезает информация из чёрных дыр, если они вообще исчезают? 19849Чёрная дыра лебедь Х-1 бросает джеты со скоростью света — но кто ими управляет? 19848Что увидели фотографы над замком Линдисфарн — и почему они закричали? 19847Почему антисептики в больницах могут создавать устойчивых к ним микробов? 19846Правда ли, что курица может жить без головы? 19845Как Оскар Уайльд использовал причёску как оружие против викторианской морали? 19844Назальный спрей против всех вирусов: как далеко зашла наука 19843«Я ещё не осознал, что мы только что сделали»: первая пресс-конференция экипажа Artemis II
Ссылка