Ssylka

Как правильно оценивать LLM-системы?

Оценка LLM-систем выходит за рамки тестирования самих языковых моделей. Системы LLM включают в себя дополнительные компоненты, такие как вызовы функций и системы поиска, требующие более детального анализа. Оценка системы LLM предполагает оценку каждого компонента, а не только финального результата. Различают два типа оценок: автономная (офлайн) и в реальном времени.
Как правильно оценивать LLM-системы?
Изображение носит иллюстративный характер

Для автономной оценки создаются тестовые кейсы, каждый из которых содержит входные данные, фактические и ожидаемые выходные данные, контекст извлечения и контекст. Набор таких кейсов формирует оценочный датасет. Метрики оценки LLM должны использовать подход LLM-as-a-judge, то есть когда LLM используется для оценки результатов. Метрики бывают эталонные и безэталонные. Эталонные метрики обеспечивают более точные результаты, но требуют предварительно подготовленных идеальных ответов. Бенчмарки системы LLM являются кастомными и состоят из набора данных для оценки и метрик.

Оценка в реальном времени позволяет анализировать ответы системы в рабочей среде. Это особенно важно для выявления слабых мест, не охваченных тестовыми кейсами для автономной оценки. В реальном времени используются безэталонные метрики, которые позволяют отбирать проблемные ответы для последующей оценки и добавления в датасет для автономной оценки.

Примерами использования являются чат-боты QA и системы Text-to-SQL. Для чат-ботов QA важны метрики корректности ответа и полноты контекста. Для систем Text-to-SQL — метрики корректности SQL-запроса и полноты контекста, необходимого для составления запроса. Оба этих варианта используют RAG архитектуру.


Новое на сайте

16943От сада чудес до протеина из атмосферы 16942Кратковременный сон наяву: научное объяснение пустоты в мыслях 16941Спутники Starlink создают непреднамеренную угрозу для радиоастрономии 16940Аутентификационная чума: бэкдор Plague год оставался невидимым 16939Фиолетовый страж тайских лесов: редкий краб-принцесса явился миру 16938Хроники мангровых лесов: победители фотоконкурса 2025 года 16937Танцевали ли планеты солнечной системы идеальный вальс? 16936Ай-ай: причудливый лемур, проклятый своим пальцем 16935Как рентгеновское зрение раскрывает самые бурные процессы во вселенной? 16934Уязвимость нулевого дня в SonicWall VPN стала оружием группировки Akira 16933Может ли государственный фонд единолично решать судьбу американской науки? 16932Способна ли филантропия блогеров решить мировой водный кризис? 16931Взлом через промпт: как AI-редактор Cursor превращали в оружие 16930Мог ли древний кризис заставить людей хоронить мертвых в печах с собаками? 16929Какие наушники Bose выбрать на распродаже: для полной изоляции или контроля над...