Почему AI-помощникам выгодно лгать, а не признавать незнание?

Последнее исследование OpenAI выявило фундаментальную математическую причину «галлюцинаций» искусственного интеллекта. Они являются не просто ошибкой или побочным эффектом некачественных данных для обучения, а неизбежным следствием самой архитектуры современных больших языковых моделей (LLM). Проблема сохраняется даже при использовании идеальных наборов данных.
Почему AI-помощникам выгодно лгать, а не признавать незнание?
Изображение носит иллюстративный характер

Природа LLM заключается в предсказании следующего слова на основе вероятностей, что по своей сути порождает ошибки, которые накапливаются с каждым новым словом. Исследователи доказали, что общая частота ошибок при генерации целого предложения как минимум вдвое выше, чем при ответе на простой вопрос формата «да/нет». Способность модели галлюцинировать напрямую ограничена ее умением отличать правильный ответ от неверного, что является сложной задачей классификации.

Вероятность галлюцинации также напрямую зависит от частоты упоминания факта в обучающих данных. Если, например, 20% дней рождения известных личностей встречаются в наборе данных всего один раз, базовые модели с вероятностью не менее 20% допустят ошибку при ответе на запрос о такой дате.

Ярким примером служит модель DeepSeek-V3, которую спросили о дне рождения Адама Калая, одного из авторов исследования. Модель выдала неверные варианты: «03-07», «15-06» и «01-01». На самом деле, день рождения Калая осенью, что делает предположения модели абсолютно неточными.

Существующая в индустрии система оценки и ранжирования ИИ только усугубляет проблему, поощряя модели угадывать, а не признавать свое незнание. Проанализировав десять основных систем тестирования ИИ, включая те, что используются Google и OpenAI, исследователи обнаружили, что девять из десяти применяют бинарную систему оценок (правильно/неправильно).

В рамках такой системы модель, ответившая «Я не знаю», получает ноль баллов — ровно столько же, сколько за абсолютно неверный ответ. Это создает прямой стимул всегда пытаться угадать. Авторы исследования называют это «эпидемией» наказания за честные ответы и математически доказывают, что ожидаемый балл при угадывании всегда превышает балл за отказ от ответа при бинарной системе оценки.

Предлагаемое решение состоит в том, чтобы заставить ИИ оценивать свой уровень уверенности перед ответом и вознаграждать его на основе этой оценки. Например, с помощью такой инструкции: «Отвечай, только если уверен более чем на 75%, поскольку за ошибки начисляется штраф в 3 балла, а за правильные ответы — 1 балл». В таких условиях ИИ будет чаще выражать неуверенность вместо того, чтобы гадать.

Однако это решение имеет два фатальных недостатка для потребительских продуктов. Первый — негативный пользовательский опыт. По консервативным оценкам из статьи, ChatGPT пришлось бы отвечать «Я не знаю» примерно на 30% запросов. Пользователи, скорее всего, откажутся от системы, которая так часто проявляет неуверенность. Аналогичная ситуация наблюдалась в проекте по мониторингу качества воздуха в Солт-Лейк-Сити, штат Юта, где вовлеченность пользователей падала, как только система сообщала о неопределенности данных.

Второй недостаток — вычислительная экономика. Внедрение моделей, осознающих свою неуверенность, требует значительно больше вычислительных ресурсов, поскольку для оценки уверенности им необходимо анализировать несколько возможных вариантов ответа. Это приводит к резкому росту операционных расходов для сервисов, обрабатывающих миллионы запросов ежедневно. Более продвинутые методы, такие как активное обучение, где ИИ задает уточняющие вопросы, еще больше увеличивают вычислительные затраты.

Этот экономический барьер создает четкое разделение. В областях с высокими ставками, где цена ошибки чрезвычайно велика — проектирование чипов, логистика поставок, финансовый трейдинг, медицинская диагностика, — затраты на ИИ, способный выражать неуверенность, оправданы и необходимы.

В то же время в сфере потребительского ИИ, которая доминирует в разработке, стимулы направлены в противоположную сторону. Пользователи ожидают мгновенных и уверенных ответов. Системы оценки вознаграждают угадывание, а не честность. Экономика отдает предпочтение быстрым и дешевым (самоуверенным) ответам, а не медленным и дорогим (неуверенным).

Таким образом, бизнес-модели, лежащие в основе потребительских ИИ-продуктов, фундаментально противоречат цели искоренения галлюцинаций. Хотя снижение стоимости энергии и развитие чиповых архитектур могут сделать вычисления неопределенности более доступными в абсолютном выражении, их относительная стоимость по сравнению с моделью «угадывания» останется высокой. Пока эти стимулы не изменятся, галлюцинации останутся неотъемлемой чертой таких продуктов, как ChatGPT.


Новое на сайте

19521Банковский троян VENON на Rust атакует Бразилию с помощью девяти техник обхода защиты 19520Бонобо агрессивны не меньше шимпанзе, но всё решают самки 19519Почему 600-килограммовый зонд NASA падает на Землю из-за солнечной активности? 19518«Липовый календарь»: как расписание превращает работников в расходный материал 19517Вредоносные Rust-пакеты и ИИ-бот крадут секреты разработчиков через CI/CD-пайплайны 19516Как хакеры за 72 часа превратили npm-пакет в ключ от целого облака AWS 19515Как WebDAV-диск и поддельная капча помогают обойти антивирус? 19514Могут ли простые числа скрываться внутри чёрных дыр? 19513Метеорит пробил крышу дома в Германии — откуда взялся огненный шар над Европой? 19512Уязвимости LeakyLooker в Google Looker Studio открывали доступ к чужим базам данных 19511Почему тысячи серверов оказываются открытой дверью для хакеров, хотя могли бы ею не быть? 19510Как исследователи за четыре минуты заставили ИИ-браузер Perplexity Comet попасться на... 19509Может ли женщина без влагалища и шейки матки зачать ребёнка естественным путём? 19508Зачем учёные из Вены создали QR-код, который невозможно увидеть без электронного... 19507Девять уязвимостей CrackArmor позволяют получить root-доступ через модуль безопасности...
Ссылка