Почему AI-помощникам выгодно лгать, а не признавать незнание?

Последнее исследование OpenAI выявило фундаментальную математическую причину «галлюцинаций» искусственного интеллекта. Они являются не просто ошибкой или побочным эффектом некачественных данных для обучения, а неизбежным следствием самой архитектуры современных больших языковых моделей (LLM). Проблема сохраняется даже при использовании идеальных наборов данных.
Почему AI-помощникам выгодно лгать, а не признавать незнание?
Изображение носит иллюстративный характер

Природа LLM заключается в предсказании следующего слова на основе вероятностей, что по своей сути порождает ошибки, которые накапливаются с каждым новым словом. Исследователи доказали, что общая частота ошибок при генерации целого предложения как минимум вдвое выше, чем при ответе на простой вопрос формата «да/нет». Способность модели галлюцинировать напрямую ограничена ее умением отличать правильный ответ от неверного, что является сложной задачей классификации.

Вероятность галлюцинации также напрямую зависит от частоты упоминания факта в обучающих данных. Если, например, 20% дней рождения известных личностей встречаются в наборе данных всего один раз, базовые модели с вероятностью не менее 20% допустят ошибку при ответе на запрос о такой дате.

Ярким примером служит модель DeepSeek-V3, которую спросили о дне рождения Адама Калая, одного из авторов исследования. Модель выдала неверные варианты: «03-07», «15-06» и «01-01». На самом деле, день рождения Калая осенью, что делает предположения модели абсолютно неточными.

Существующая в индустрии система оценки и ранжирования ИИ только усугубляет проблему, поощряя модели угадывать, а не признавать свое незнание. Проанализировав десять основных систем тестирования ИИ, включая те, что используются Google и OpenAI, исследователи обнаружили, что девять из десяти применяют бинарную систему оценок (правильно/неправильно).

В рамках такой системы модель, ответившая «Я не знаю», получает ноль баллов — ровно столько же, сколько за абсолютно неверный ответ. Это создает прямой стимул всегда пытаться угадать. Авторы исследования называют это «эпидемией» наказания за честные ответы и математически доказывают, что ожидаемый балл при угадывании всегда превышает балл за отказ от ответа при бинарной системе оценки.

Предлагаемое решение состоит в том, чтобы заставить ИИ оценивать свой уровень уверенности перед ответом и вознаграждать его на основе этой оценки. Например, с помощью такой инструкции: «Отвечай, только если уверен более чем на 75%, поскольку за ошибки начисляется штраф в 3 балла, а за правильные ответы — 1 балл». В таких условиях ИИ будет чаще выражать неуверенность вместо того, чтобы гадать.

Однако это решение имеет два фатальных недостатка для потребительских продуктов. Первый — негативный пользовательский опыт. По консервативным оценкам из статьи, ChatGPT пришлось бы отвечать «Я не знаю» примерно на 30% запросов. Пользователи, скорее всего, откажутся от системы, которая так часто проявляет неуверенность. Аналогичная ситуация наблюдалась в проекте по мониторингу качества воздуха в Солт-Лейк-Сити, штат Юта, где вовлеченность пользователей падала, как только система сообщала о неопределенности данных.

Второй недостаток — вычислительная экономика. Внедрение моделей, осознающих свою неуверенность, требует значительно больше вычислительных ресурсов, поскольку для оценки уверенности им необходимо анализировать несколько возможных вариантов ответа. Это приводит к резкому росту операционных расходов для сервисов, обрабатывающих миллионы запросов ежедневно. Более продвинутые методы, такие как активное обучение, где ИИ задает уточняющие вопросы, еще больше увеличивают вычислительные затраты.

Этот экономический барьер создает четкое разделение. В областях с высокими ставками, где цена ошибки чрезвычайно велика — проектирование чипов, логистика поставок, финансовый трейдинг, медицинская диагностика, — затраты на ИИ, способный выражать неуверенность, оправданы и необходимы.

В то же время в сфере потребительского ИИ, которая доминирует в разработке, стимулы направлены в противоположную сторону. Пользователи ожидают мгновенных и уверенных ответов. Системы оценки вознаграждают угадывание, а не честность. Экономика отдает предпочтение быстрым и дешевым (самоуверенным) ответам, а не медленным и дорогим (неуверенным).

Таким образом, бизнес-модели, лежащие в основе потребительских ИИ-продуктов, фундаментально противоречат цели искоренения галлюцинаций. Хотя снижение стоимости энергии и развитие чиповых архитектур могут сделать вычисления неопределенности более доступными в абсолютном выражении, их относительная стоимость по сравнению с моделью «угадывания» останется высокой. Пока эти стимулы не изменятся, галлюцинации останутся неотъемлемой чертой таких продуктов, как ChatGPT.


Новое на сайте

19216Смертельный симбиоз спама и эксплойтов: как хакеры захватывают корпоративные сети за 11... 19215Как новые SaaS-платформы вроде Starkiller и 1Phish позволяют киберпреступникам незаметно... 19214Инженерия ужаса: как паровые машины и математика создали гений Эдгара Аллана по 19213Трансформация первой линии SOC: три шага к предиктивной безопасности 19212Архитектура смыслов в профессиональной редактуре 19211Манипуляция легитимными редиректами OAuth как вектор скрытых атак на правительственные... 19210Как активно эксплуатируемая уязвимость CVE-2026-21385 в графике Qualcomm привела к... 19209Как беспрецедентный бунт чернокожих женщин в суде Бостона разрушил планы рабовладельцев? 19208Как новые поколения троянов удаленного доступа захватывают системы ради кибершпионажа и... 19207Почему мировые киберпреступники захватили рекламные сети, и как Meta вместе с властями... 19206Как фальшивый пакет StripeApi.Net в NuGet Gallery незаметно похищал финансовые API-токены... 19205Зачем неизвестная группировка UAT-10027 внедряет бэкдор Dohdoor в системы образования и... 19204Ритуальный предсвадебный плач как форма протеста в традиционном Китае 19203Невидимая угроза в оперативной памяти: масштабная атака северокорейских хакеров на... 19202Как уязвимость нулевого дня в Cisco SD-WAN позволяет хакерам незаметно захватывать...
Ссылка