Меню

Методика оценки качества чат-ботов: сравнение LLM и Intent-based решений

Нерисса

Эксперимент, сравнивший чат-бота на основе LLM (GPT-4o) и бота на интентах, показал, что LLM-решение выиграло по общему впечатлению и суммарной оценке критериев, таких как актуальность и проактивность. Однако, LLM-бот проигрывал в скорости ответа, стабильности работы и достоверности информации, иногда выдавая «галлюцинации».
Методика оценки качества чат-ботов: сравнение LLM и Intent-based решений

Методика оценки качества чат-ботов: сравнение LLM и Intent-based решений

Изображение носит иллюстративный характер

Тестирование проводилось на базе действующего бота компании КНАУФ. Фокус-группа оценивала ботов по ряду критериев, включая понятность функционала, решение поставленной задачи, общее впечатление и соответствие утверждениям, опирающимся на принципы дизайна разговорных интерфейсов.

Анализ комментариев респондентов выявил, что бот на интентах лучше воспринимался как справочник для пользователей, знающих, что ищут, в то время как LLM-бот лучше справлялся с общими вопросами. При этом классическое решение получило высокую оценку за навигацию и лаконичность, а LLM-версия была многословной.

В ходе эксперимента подтвердилась гипотеза о целесообразности гибридного подхода, сочетающего прописанные скрипты и LLM для улучшения навигации и обработки нестандартных ситуаций. Red политики компании в целом оказались полезными при работе над личностью бота.

Источник: requiem-ame

← Предыдущее в разделе Следующее в разделе →

Вверх

Новое на сайте

Как один npm-пакет для защиты кода сам стал источником заражения?

Может ли обычное письмо взломать вашу почту в Zimbra?

Зачем сразу несколько разведок взломали портал полиции Белуджистана?

Кошельки, которые «родились слабыми»: как уязвимость Ill Bloom стоила криптовладельцам...

Как мошенники используют фальшивую регистрацию passkey, чтобы захватить чужой Microsoft...

Как безобидный установщик 7-Zip превращает компьютер в чужой прокси-сервер?

Термометр, а не трофей: зачем всем вдруг понадобились базы уязвимостей

Почему кнопка «разрешить» в AI-редакторах кода может обмануть даже опытного разработчика?

Как китайская группировка Silver Fox превратила инструмент против цензуры в оружие для...

Почему физик из Лондона получил один из самых престижных призов в науке за измерение...

Сколько времени нужно хакеру, чтобы взломать вашу сеть — и успеете ли вы это заметить?

Как ИИ-агент, который должен ловить вирусы, сам стал вирусом

Переговорщик по выкупам работал на тех самых хакеров, от которых должен был защищать...

Дыра в Defender: как гонка процессов открывала путь к правам SYSTEM, а заплатка принесла...

Меню

МенюЗакрыть