Ssylka

Почему AI-помощникам выгодно лгать, а не признавать незнание?

Последнее исследование OpenAI выявило фундаментальную математическую причину «галлюцинаций» искусственного интеллекта. Они являются не просто ошибкой или побочным эффектом некачественных данных для обучения, а неизбежным следствием самой архитектуры современных больших языковых моделей (LLM). Проблема сохраняется даже при использовании идеальных наборов данных.
Почему AI-помощникам выгодно лгать, а не признавать незнание?
Изображение носит иллюстративный характер

Природа LLM заключается в предсказании следующего слова на основе вероятностей, что по своей сути порождает ошибки, которые накапливаются с каждым новым словом. Исследователи доказали, что общая частота ошибок при генерации целого предложения как минимум вдвое выше, чем при ответе на простой вопрос формата «да/нет». Способность модели галлюцинировать напрямую ограничена ее умением отличать правильный ответ от неверного, что является сложной задачей классификации.

Вероятность галлюцинации также напрямую зависит от частоты упоминания факта в обучающих данных. Если, например, 20% дней рождения известных личностей встречаются в наборе данных всего один раз, базовые модели с вероятностью не менее 20% допустят ошибку при ответе на запрос о такой дате.

Ярким примером служит модель DeepSeek-V3, которую спросили о дне рождения Адама Калая, одного из авторов исследования. Модель выдала неверные варианты: «03-07», «15-06» и «01-01». На самом деле, день рождения Калая осенью, что делает предположения модели абсолютно неточными.

Существующая в индустрии система оценки и ранжирования ИИ только усугубляет проблему, поощряя модели угадывать, а не признавать свое незнание. Проанализировав десять основных систем тестирования ИИ, включая те, что используются Google и OpenAI, исследователи обнаружили, что девять из десяти применяют бинарную систему оценок (правильно/неправильно).

В рамках такой системы модель, ответившая «Я не знаю», получает ноль баллов — ровно столько же, сколько за абсолютно неверный ответ. Это создает прямой стимул всегда пытаться угадать. Авторы исследования называют это «эпидемией» наказания за честные ответы и математически доказывают, что ожидаемый балл при угадывании всегда превышает балл за отказ от ответа при бинарной системе оценки.

Предлагаемое решение состоит в том, чтобы заставить ИИ оценивать свой уровень уверенности перед ответом и вознаграждать его на основе этой оценки. Например, с помощью такой инструкции: «Отвечай, только если уверен более чем на 75%, поскольку за ошибки начисляется штраф в 3 балла, а за правильные ответы — 1 балл». В таких условиях ИИ будет чаще выражать неуверенность вместо того, чтобы гадать.

Однако это решение имеет два фатальных недостатка для потребительских продуктов. Первый — негативный пользовательский опыт. По консервативным оценкам из статьи, ChatGPT пришлось бы отвечать «Я не знаю» примерно на 30% запросов. Пользователи, скорее всего, откажутся от системы, которая так часто проявляет неуверенность. Аналогичная ситуация наблюдалась в проекте по мониторингу качества воздуха в Солт-Лейк-Сити, штат Юта, где вовлеченность пользователей падала, как только система сообщала о неопределенности данных.

Второй недостаток — вычислительная экономика. Внедрение моделей, осознающих свою неуверенность, требует значительно больше вычислительных ресурсов, поскольку для оценки уверенности им необходимо анализировать несколько возможных вариантов ответа. Это приводит к резкому росту операционных расходов для сервисов, обрабатывающих миллионы запросов ежедневно. Более продвинутые методы, такие как активное обучение, где ИИ задает уточняющие вопросы, еще больше увеличивают вычислительные затраты.

Этот экономический барьер создает четкое разделение. В областях с высокими ставками, где цена ошибки чрезвычайно велика — проектирование чипов, логистика поставок, финансовый трейдинг, медицинская диагностика, — затраты на ИИ, способный выражать неуверенность, оправданы и необходимы.

В то же время в сфере потребительского ИИ, которая доминирует в разработке, стимулы направлены в противоположную сторону. Пользователи ожидают мгновенных и уверенных ответов. Системы оценки вознаграждают угадывание, а не честность. Экономика отдает предпочтение быстрым и дешевым (самоуверенным) ответам, а не медленным и дорогим (неуверенным).

Таким образом, бизнес-модели, лежащие в основе потребительских ИИ-продуктов, фундаментально противоречат цели искоренения галлюцинаций. Хотя снижение стоимости энергии и развитие чиповых архитектур могут сделать вычисления неопределенности более доступными в абсолютном выражении, их относительная стоимость по сравнению с моделью «угадывания» останется высокой. Пока эти стимулы не изменятся, галлюцинации останутся неотъемлемой чертой таких продуктов, как ChatGPT.


Новое на сайте

18817Искусственный интеллект в математике: от олимпиадного золота до решения вековых проблем 18816Радиоактивный след в Арктике: путь цезия-137 от лишайника через оленей к коренным народам 18815Критическая уязвимость WatchGuard CVE-2025-14733 с рейтингом 9.3 уже эксплуатируется в... 18814Что подготовило ночное небо на праздники 2025 года и какие астрономические явления нельзя... 18813Зачем нубийские христиане наносили татуировки на лица младенцев 1400 лет назад? 18812Как увидеть метеорный поток Урсиды в самую длинную ночь 2025 года? 18811Кто стоял за фишинговой империей RaccoonO365 и как спецслужбы ликвидировали угрозу... 18810Как злоумышленники могут использовать критическую уязвимость UEFI для взлома плат ASRock,... 18809Как наблюдать максимальное сближение с землей третьей межзвездной кометы 3I/ATLAS? 18808Передовая римская канализация не спасла легионеров от тяжелых кишечных инфекций 18807Способен ли вулканический щебень на дне океана работать как гигантская губка для... 18806Зонд NASA Europa Clipper успешно запечатлел межзвездную комету 3I/ATLAS во время полета к... 18805Может ли перенос лечения на первую половину дня удвоить выживаемость при раке легких? 18804Новая китайская группировка LongNosedGoblin использует легальные облачные сервисы для... 18803Генетический анализ раскрыл древнейший случай кровосмешения первой степени в итальянской...