Меню

Как правильно оценивать LLM-системы?

Балтилд

Оценка LLM-систем выходит за рамки тестирования самих языковых моделей. Системы LLM включают в себя дополнительные компоненты, такие как вызовы функций и системы поиска, требующие более детального анализа. Оценка системы LLM предполагает оценку каждого компонента, а не только финального результата. Различают два типа оценок: автономная (офлайн) и в реальном времени.
Как правильно оценивать LLM-системы?

Изображение носит иллюстративный характер

Для автономной оценки создаются тестовые кейсы, каждый из которых содержит входные данные, фактические и ожидаемые выходные данные, контекст извлечения и контекст. Набор таких кейсов формирует оценочный датасет. Метрики оценки LLM должны использовать подход LLM-as-a-judge, то есть когда LLM используется для оценки результатов. Метрики бывают эталонные и безэталонные. Эталонные метрики обеспечивают более точные результаты, но требуют предварительно подготовленных идеальных ответов. Бенчмарки системы LLM являются кастомными и состоят из набора данных для оценки и метрик.

Оценка в реальном времени позволяет анализировать ответы системы в рабочей среде. Это особенно важно для выявления слабых мест, не охваченных тестовыми кейсами для автономной оценки. В реальном времени используются безэталонные метрики, которые позволяют отбирать проблемные ответы для последующей оценки и добавления в датасет для автономной оценки.

Примерами использования являются чат-боты QA и системы Text-to-SQL. Для чат-ботов QA важны метрики корректности ответа и полноты контекста. Для систем Text-to-SQL — метрики корректности SQL-запроса и полноты контекста, необходимого для составления запроса. Оба этих варианта используют RAG архитектуру.

Источник: kucev

← Предыдущее в разделе Следующее в разделе →

Вверх

Новое на сайте

Критическая уязвимость в решениях BeyondTrust спровоцировала глобальную волну кражи...

Эволюция угроз: атака на цепочку поставок ИИ-ассистента Cline CLI через уязвимость...

Как фальшивая проверка Cloudflare в кампании ClickFix скрыто внедряет новый троян...

Почему гендерно-нейтральные корпоративные политики становятся главным инструментом...

Как искусственный интеллект уничтожил временной зазор между обнаружением уязвимости и...

Банковский троян Massiv маскируется под IPTV для захвата контроля над Android

Как шпионская кампания CRESCENTHARVEST использует социальную инженерию для кражи данных...

Как критическая уязвимость в телефонах Grandstream открывает хакерам доступ к...

Почему операционная непрерывность становится единственным ответом на перманентную...

Критические уязвимости в популярных расширениях VS Code угрожают миллионам разработчиков

Как внедрить интеллектуальные рабочие процессы и почему 88% проектов ИИ терпят неудачу?

Критическая уязвимость нулевого дня в Dell RecoverPoint открывает злоумышленникам полный...

Notepad++ внедряет механизм двойной блокировки для защиты от атак группировки Lotus Panda

Новые угрозы в каталоге CISA: от критических дыр в Chrome и Zimbra до возвращения червя...

Использование чат-ботов Copilot и Grok в качестве скрытых прокси-серверов для управления...

Меню

МенюЗакрыть