Арбузная загадка: ИИ против неопределенности

Задача с арбузом, где из килограммового плода выпаривается 90% воды, но не указано процентное содержание воды изначально, выявляет слабость нейросетей в распознавании неопределенности. Большинство моделей, включая ChatGPT 4o и GigaChat, поначалу выдавали ошибочные числовые ответы, интерпретируя 90% как долю воды в арбузе, а не только как испарившуюся часть.
Арбузная загадка: ИИ против неопределенности
Изображение носит иллюстративный характер

Новая модель ChatGPT o1 проявила заметный прогресс, корректно указав на невозможность точного числового решения и предложив ответ в общем виде. Это демонстрирует улучшение в способности распознавать неполноту данных, что является ключевым аспектом логического мышления. GigaChat также улучшил свои результаты при уточнении запроса, но по-прежнему сталкивался с трудностями в понимании формулировки.

Эксперимент показал, что даже люди, изначально склонные давать числовые ответы, часто переспрашивали условия задачи, демонстрируя ее провокационный характер. Некоторые решали задачу исходя из предположения, что вначале арбуз состоял на 99 или 90 процентов из воды, что приводило их к неправильному числовому ответу. Задача оказалась более сложной, чем может показаться, и может ввести в заблуждение не только ИИ, но и человека.

Выявленная проблема также подчеркивает важность способности ИИ задавать уточняющие вопросы. В то время как некоторые модели могут реагировать на явную просьбу задавать вопросы на английском языке, на русском они, как правило, не проявляют такую инициативу. Улучшение ИИ в понимании и обработке неопределенных запросов, а также развитие способности задавать уточняющие вопросы, является важным направлением для дальнейшего развития нейросетей.


Новое на сайте

19764Почему зрелые системы управления доступом в 2026 году стали опаснее, чем незрелые? 19763Почему пароли до сих пор обходятся бизнесу дороже, чем кажется? 19762Как больше тысячи незащищённых серверов ComfyUI стали фермой для майнинга криптовалют? 19761Почему война Калифорнии со смогом в 1970-х изменила весь автопром? 19760Почему фальшивый «слив» Claude Code оказался ловушкой для сотен разработчиков? 19759Как физики умудрились перевезти антиматерию в обычном грузовике? 19758Атака GPUBreach: как через видеопамять можно получить полный контроль над компьютером 19757Что за ядовито-зелёное пятно на водохранилище в ЮАР видно даже из космоса? 19756Как Storm-1175 из Китая ломает корпоративные сети за сутки и что делает Medusa настолько... 19755Почему 12 000 серверов с ИИ-платформой Flowise оказались беззащитны перед хакерами? 19754Северокорейские хакеры спрятали командный центр на GitHub 19753ИИ обгоняет людей в биомедицинском анализе — так ли это опасно, как звучит? 19752Artemis II летит к луне: что происходит и как за этим следить 19751Лекарство от диабета первого типа: шутка про «пять лет» перестаёт быть шуткой 19750Псевдонаука на службе рабства: как учёные XIX века торговали теориями о смешанной крови
Ссылка