Ssylka

Почему AI-помощникам выгодно лгать, а не признавать незнание?

Последнее исследование OpenAI выявило фундаментальную математическую причину «галлюцинаций» искусственного интеллекта. Они являются не просто ошибкой или побочным эффектом некачественных данных для обучения, а неизбежным следствием самой архитектуры современных больших языковых моделей (LLM). Проблема сохраняется даже при использовании идеальных наборов данных.
Почему AI-помощникам выгодно лгать, а не признавать незнание?
Изображение носит иллюстративный характер

Природа LLM заключается в предсказании следующего слова на основе вероятностей, что по своей сути порождает ошибки, которые накапливаются с каждым новым словом. Исследователи доказали, что общая частота ошибок при генерации целого предложения как минимум вдвое выше, чем при ответе на простой вопрос формата «да/нет». Способность модели галлюцинировать напрямую ограничена ее умением отличать правильный ответ от неверного, что является сложной задачей классификации.

Вероятность галлюцинации также напрямую зависит от частоты упоминания факта в обучающих данных. Если, например, 20% дней рождения известных личностей встречаются в наборе данных всего один раз, базовые модели с вероятностью не менее 20% допустят ошибку при ответе на запрос о такой дате.

Ярким примером служит модель DeepSeek-V3, которую спросили о дне рождения Адама Калая, одного из авторов исследования. Модель выдала неверные варианты: «03-07», «15-06» и «01-01». На самом деле, день рождения Калая осенью, что делает предположения модели абсолютно неточными.

Существующая в индустрии система оценки и ранжирования ИИ только усугубляет проблему, поощряя модели угадывать, а не признавать свое незнание. Проанализировав десять основных систем тестирования ИИ, включая те, что используются Google и OpenAI, исследователи обнаружили, что девять из десяти применяют бинарную систему оценок (правильно/неправильно).

В рамках такой системы модель, ответившая «Я не знаю», получает ноль баллов — ровно столько же, сколько за абсолютно неверный ответ. Это создает прямой стимул всегда пытаться угадать. Авторы исследования называют это «эпидемией» наказания за честные ответы и математически доказывают, что ожидаемый балл при угадывании всегда превышает балл за отказ от ответа при бинарной системе оценки.

Предлагаемое решение состоит в том, чтобы заставить ИИ оценивать свой уровень уверенности перед ответом и вознаграждать его на основе этой оценки. Например, с помощью такой инструкции: «Отвечай, только если уверен более чем на 75%, поскольку за ошибки начисляется штраф в 3 балла, а за правильные ответы — 1 балл». В таких условиях ИИ будет чаще выражать неуверенность вместо того, чтобы гадать.

Однако это решение имеет два фатальных недостатка для потребительских продуктов. Первый — негативный пользовательский опыт. По консервативным оценкам из статьи, ChatGPT пришлось бы отвечать «Я не знаю» примерно на 30% запросов. Пользователи, скорее всего, откажутся от системы, которая так часто проявляет неуверенность. Аналогичная ситуация наблюдалась в проекте по мониторингу качества воздуха в Солт-Лейк-Сити, штат Юта, где вовлеченность пользователей падала, как только система сообщала о неопределенности данных.

Второй недостаток — вычислительная экономика. Внедрение моделей, осознающих свою неуверенность, требует значительно больше вычислительных ресурсов, поскольку для оценки уверенности им необходимо анализировать несколько возможных вариантов ответа. Это приводит к резкому росту операционных расходов для сервисов, обрабатывающих миллионы запросов ежедневно. Более продвинутые методы, такие как активное обучение, где ИИ задает уточняющие вопросы, еще больше увеличивают вычислительные затраты.

Этот экономический барьер создает четкое разделение. В областях с высокими ставками, где цена ошибки чрезвычайно велика — проектирование чипов, логистика поставок, финансовый трейдинг, медицинская диагностика, — затраты на ИИ, способный выражать неуверенность, оправданы и необходимы.

В то же время в сфере потребительского ИИ, которая доминирует в разработке, стимулы направлены в противоположную сторону. Пользователи ожидают мгновенных и уверенных ответов. Системы оценки вознаграждают угадывание, а не честность. Экономика отдает предпочтение быстрым и дешевым (самоуверенным) ответам, а не медленным и дорогим (неуверенным).

Таким образом, бизнес-модели, лежащие в основе потребительских ИИ-продуктов, фундаментально противоречат цели искоренения галлюцинаций. Хотя снижение стоимости энергии и развитие чиповых архитектур могут сделать вычисления неопределенности более доступными в абсолютном выражении, их относительная стоимость по сравнению с моделью «угадывания» останется высокой. Пока эти стимулы не изменятся, галлюцинации останутся неотъемлемой чертой таких продуктов, как ChatGPT.


Новое на сайте

18586Криптовалютный червь: как десятки тысяч фейковых пакетов наводнили npm 18585Портативный звук JBL по рекордно низкой цене 18584Воин-крокодил триаса: находка в Бразилии связала континенты 18583Опиум как повседневность древнего Египта 18582Двойной удар по лекарственно-устойчивой малярии 18581Почему взрыв массивной звезды асимметричен в первые мгновения? 18580Почему самые удобные для поиска жизни звезды оказались наиболее враждебными? 18579Смертоносные вспышки красных карликов угрожают обитаемым мирам 18578Почему самый активный подводный вулкан тихого океана заставил ученых пересмотреть дату... 18577Вспышка на солнце сорвала запуск ракеты New Glenn к Марсу 18576Как фишинг-платформа Lighthouse заработала миллиард долларов и почему Google подала на... 18575Почему космический мусор стал реальной угрозой для пилотируемых миссий? 18574Зеленый свидетель: как мох помогает раскрывать преступления 18573Инфраструктурная гонка ИИ: Anthropic инвестирует $50 миллиардов для Claude 18572Кровь активных мышей омолодила мозг ленивых сородичей