Меню

Методика оценки качества чат-ботов: сравнение LLM и Intent-based решений

Нерисса

Эксперимент, сравнивший чат-бота на основе LLM (GPT-4o) и бота на интентах, показал, что LLM-решение выиграло по общему впечатлению и суммарной оценке критериев, таких как актуальность и проактивность. Однако, LLM-бот проигрывал в скорости ответа, стабильности работы и достоверности информации, иногда выдавая «галлюцинации».
Методика оценки качества чат-ботов: сравнение LLM и Intent-based решений

Методика оценки качества чат-ботов: сравнение LLM и Intent-based решений

Изображение носит иллюстративный характер

Тестирование проводилось на базе действующего бота компании КНАУФ. Фокус-группа оценивала ботов по ряду критериев, включая понятность функционала, решение поставленной задачи, общее впечатление и соответствие утверждениям, опирающимся на принципы дизайна разговорных интерфейсов.

Анализ комментариев респондентов выявил, что бот на интентах лучше воспринимался как справочник для пользователей, знающих, что ищут, в то время как LLM-бот лучше справлялся с общими вопросами. При этом классическое решение получило высокую оценку за навигацию и лаконичность, а LLM-версия была многословной.

В ходе эксперимента подтвердилась гипотеза о целесообразности гибридного подхода, сочетающего прописанные скрипты и LLM для улучшения навигации и обработки нестандартных ситуаций. Red политики компании в целом оказались полезными при работе над личностью бота.

Источник: requiem-ame

← Предыдущее в разделе Следующее в разделе →

Вверх

Новое на сайте

Почему Anthropic не может закрыть дыру в Claude for Chrome уже восемь версий подряд?

Как школьный обход блокировок превратился в оружие против нищего сервера медицинского...

Joomla получила две дыры с максимальным баллом опасности — и обе уже эксплуатировались до...

Grok Build тайно копировал целые репозитории разработчиков — история коммитов, секреты и...

Почему центру кибербезопасности нужны два разных мозга?

Кошельки для криптовалют выдают своих владельцев, даже не будучи взломанными

Как за год взломали Salesforce, ни разу не тронув саму платформу?

Почему подпись Microsoft десятилетней давности всё ещё открывает двери в чужую систему?

CrashStealer: как вредонос для macOS прошёл проверку Apple, спрятавшись за легальной...

Расширение с 1,6 миллиона установок хранило в себе спящий сборщик истории браузера

Меню

МенюЗакрыть