Ssylka

Методика оценки качества чат-ботов: сравнение LLM и Intent-based решений

Эксперимент, сравнивший чат-бота на основе LLM (GPT-4o) и бота на интентах, показал, что LLM-решение выиграло по общему впечатлению и суммарной оценке критериев, таких как актуальность и проактивность. Однако, LLM-бот проигрывал в скорости ответа, стабильности работы и достоверности информации, иногда выдавая «галлюцинации».
Методика оценки качества чат-ботов: сравнение LLM и Intent-based решений
Изображение носит иллюстративный характер

Тестирование проводилось на базе действующего бота компании КНАУФ. Фокус-группа оценивала ботов по ряду критериев, включая понятность функционала, решение поставленной задачи, общее впечатление и соответствие утверждениям, опирающимся на принципы дизайна разговорных интерфейсов.

Анализ комментариев респондентов выявил, что бот на интентах лучше воспринимался как справочник для пользователей, знающих, что ищут, в то время как LLM-бот лучше справлялся с общими вопросами. При этом классическое решение получило высокую оценку за навигацию и лаконичность, а LLM-версия была многословной.

В ходе эксперимента подтвердилась гипотеза о целесообразности гибридного подхода, сочетающего прописанные скрипты и LLM для улучшения навигации и обработки нестандартных ситуаций. Red политики компании в целом оказались полезными при работе над личностью бота.


Новое на сайте

18250Сможет ли искусственный интеллект обеспечить TSMC мировое господство? 18249Критическая уязвимость Adobe с оценкой 10.0 попала под активную атаку 18248Цифровое воскрешение прогнозов погоды из 90-х 18247Зачем мозг в фазе быстрого сна стирает детали воспоминаний? 18246Мог ли древний яд стать решающим фактором в эволюции человека? 18245Тайна колодца Мурсы: раны и днк раскрыли судьбу павших солдат 18244Битва за миллиардный сэндвич без корочки 18243Почему ваши расширения для VS Code могут оказаться шпионским по? 18242Как подать заявку FAFSA на 2026-27 учебный год и получить финансовую помощь? 18241Мог ли взлом F5 раскрыть уязвимости нулевого дня в продукте BIG-IP? 18240CVS завершает поглощение активов обанкротившейся сети Rite Aid 18239Nvidia, BlackRock и Microsoft покупают основу для глобального ИИ за $40 миллиардов 18238Действительно ли только род Homo создавал орудия труда? 18237Инженерный триумф: сотрудник Rivian вырастил тыкву-победителя 18236Процент с прибыли: как инвесторы создали новый источник финансирования для...