Объективная оценка качества LLM: от метрик к практике

Выбор правильных метрик для оценки LLM — важная задача, влияющая на качество работы всей системы. Существуют разные типы метрик, от статистических до основанных на нейросетях, но наиболее эффективными являются те, что используют LLM в качестве «судьи» (например, G-Eval). Они лучше учитывают семантику и способны более точно оценить результат.
Объективная оценка качества LLM: от метрик к практике
Изображение носит иллюстративный характер

Метрики RAG (Retrieval-Augmented Generation) необходимы для оценки систем, генерирующих текст с учетом контекста. Важными показателями являются: достоверность (соответствие фактам), релевантность ответа, контекстная точность (ранжирование релевантных узлов), контекстная полнота (покрытие информации из контекста) и общая контекстная релевантность (соответствие запросу). Для их вычисления часто используется метод QAG (Question Answering Generation), который задаёт закрытые вопросы и анализирует ответы.

Метрики для дообучения LLM, такие как оценка галлюцинаций (вымышленных фактов), токсичности (наличие оскорблений) и предвзятости, оценивают качество самой модели. Обнаружение галлюцинаций можно проводить методом SelfCheckGPT, а токсичность и предвзятость можно измерять, используя LLM как «судью» с помощью G-Eval, задавая соответствующие критерии. Предвзятость – это крайне субъективная категория, она может существенно варьироваться в зависимости от географических, геополитических и геосоциальных условий.

Для оценки специфичных задач можно использовать метрику соответствия инструкциям, которая оценивает, насколько точно LLM выполняет указания, или метрику резюмирования, оценивающую точность и полноту сжатого текста. Для конкретных случаев использования подойдут кастомные метрики с помощью G-Eval, где гибко задаются критерии оценки. Выбор конкретных метрик зависит от задач, стоящих перед LLM, и ее архитектуры.


Новое на сайте

19857Острова как политический побег: от Атлантиды до плавучих государств Питера Тиля 19856Яйца, которые спасли предков млекопитающих от худшего апокалипсиса на Земле? 19855Могут ли омары чувствовать боль, и почему учёные требуют запретить варить их живыми? 19854Премия в $3 млн за первое CRISPR-лечение серповидноклеточной анемии 19853Почему сотрудники игнорируют корпоративное обучение и как это исправить 19852Тинтагель: место силы Артура или красивая легенда? 19851Голоса в голове сказали правду: что происходит, когда галлюцинации ставят диагноз точнее... 19850Куда исчезает информация из чёрных дыр, если они вообще исчезают? 19849Чёрная дыра лебедь Х-1 бросает джеты со скоростью света — но кто ими управляет? 19848Что увидели фотографы над замком Линдисфарн — и почему они закричали? 19847Почему антисептики в больницах могут создавать устойчивых к ним микробов? 19846Правда ли, что курица может жить без головы? 19845Как Оскар Уайльд использовал причёску как оружие против викторианской морали? 19844Назальный спрей против всех вирусов: как далеко зашла наука 19843«Я ещё не осознал, что мы только что сделали»: первая пресс-конференция экипажа Artemis II
Ссылка