Почему AI-помощникам выгодно лгать, а не признавать незнание?

Последнее исследование OpenAI выявило фундаментальную математическую причину «галлюцинаций» искусственного интеллекта. Они являются не просто ошибкой или побочным эффектом некачественных данных для обучения, а неизбежным следствием самой архитектуры современных больших языковых моделей (LLM). Проблема сохраняется даже при использовании идеальных наборов данных.
Почему AI-помощникам выгодно лгать, а не признавать незнание?

Почему AI-помощникам выгодно лгать, а не признавать незнание?

Изображение носит иллюстративный характер

Природа LLM заключается в предсказании следующего слова на основе вероятностей, что по своей сути порождает ошибки, которые накапливаются с каждым новым словом. Исследователи доказали, что общая частота ошибок при генерации целого предложения как минимум вдвое выше, чем при ответе на простой вопрос формата «да/нет». Способность модели галлюцинировать напрямую ограничена ее умением отличать правильный ответ от неверного, что является сложной задачей классификации.

Вероятность галлюцинации также напрямую зависит от частоты упоминания факта в обучающих данных. Если, например, 20% дней рождения известных личностей встречаются в наборе данных всего один раз, базовые модели с вероятностью не менее 20% допустят ошибку при ответе на запрос о такой дате.

Ярким примером служит модель DeepSeek-V3, которую спросили о дне рождения Адама Калая, одного из авторов исследования. Модель выдала неверные варианты: «03-07», «15-06» и «01-01». На самом деле, день рождения Калая осенью, что делает предположения модели абсолютно неточными.

Существующая в индустрии система оценки и ранжирования ИИ только усугубляет проблему, поощряя модели угадывать, а не признавать свое незнание. Проанализировав десять основных систем тестирования ИИ, включая те, что используются Google и OpenAI, исследователи обнаружили, что девять из десяти применяют бинарную систему оценок (правильно/неправильно).

В рамках такой системы модель, ответившая «Я не знаю», получает ноль баллов — ровно столько же, сколько за абсолютно неверный ответ. Это создает прямой стимул всегда пытаться угадать. Авторы исследования называют это «эпидемией» наказания за честные ответы и математически доказывают, что ожидаемый балл при угадывании всегда превышает балл за отказ от ответа при бинарной системе оценки.

Предлагаемое решение состоит в том, чтобы заставить ИИ оценивать свой уровень уверенности перед ответом и вознаграждать его на основе этой оценки. Например, с помощью такой инструкции: «Отвечай, только если уверен более чем на 75%, поскольку за ошибки начисляется штраф в 3 балла, а за правильные ответы — 1 балл». В таких условиях ИИ будет чаще выражать неуверенность вместо того, чтобы гадать.

Однако это решение имеет два фатальных недостатка для потребительских продуктов. Первый — негативный пользовательский опыт. По консервативным оценкам из статьи, ChatGPT пришлось бы отвечать «Я не знаю» примерно на 30% запросов. Пользователи, скорее всего, откажутся от системы, которая так часто проявляет неуверенность. Аналогичная ситуация наблюдалась в проекте по мониторингу качества воздуха в Солт-Лейк-Сити, штат Юта, где вовлеченность пользователей падала, как только система сообщала о неопределенности данных.

Второй недостаток — вычислительная экономика. Внедрение моделей, осознающих свою неуверенность, требует значительно больше вычислительных ресурсов, поскольку для оценки уверенности им необходимо анализировать несколько возможных вариантов ответа. Это приводит к резкому росту операционных расходов для сервисов, обрабатывающих миллионы запросов ежедневно. Более продвинутые методы, такие как активное обучение, где ИИ задает уточняющие вопросы, еще больше увеличивают вычислительные затраты.

Этот экономический барьер создает четкое разделение. В областях с высокими ставками, где цена ошибки чрезвычайно велика — проектирование чипов, логистика поставок, финансовый трейдинг, медицинская диагностика, — затраты на ИИ, способный выражать неуверенность, оправданы и необходимы.

В то же время в сфере потребительского ИИ, которая доминирует в разработке, стимулы направлены в противоположную сторону. Пользователи ожидают мгновенных и уверенных ответов. Системы оценки вознаграждают угадывание, а не честность. Экономика отдает предпочтение быстрым и дешевым (самоуверенным) ответам, а не медленным и дорогим (неуверенным).

Таким образом, бизнес-модели, лежащие в основе потребительских ИИ-продуктов, фундаментально противоречат цели искоренения галлюцинаций. Хотя снижение стоимости энергии и развитие чиповых архитектур могут сделать вычисления неопределенности более доступными в абсолютном выражении, их относительная стоимость по сравнению с моделью «угадывания» останется высокой. Пока эти стимулы не изменятся, галлюцинации останутся неотъемлемой чертой таких продуктов, как ChatGPT.

Источник: Wei Xing

Почему AI-помощникам выгодно лгать, а не признавать незнание?

Новое на сайте