Арбузная загадка: ИИ против неопределенности

Задача с арбузом, где из килограммового плода выпаривается 90% воды, но не указано процентное содержание воды изначально, выявляет слабость нейросетей в распознавании неопределенности. Большинство моделей, включая ChatGPT 4o и GigaChat, поначалу выдавали ошибочные числовые ответы, интерпретируя 90% как долю воды в арбузе, а не только как испарившуюся часть.
Арбузная загадка: ИИ против неопределенности
Изображение носит иллюстративный характер

Новая модель ChatGPT o1 проявила заметный прогресс, корректно указав на невозможность точного числового решения и предложив ответ в общем виде. Это демонстрирует улучшение в способности распознавать неполноту данных, что является ключевым аспектом логического мышления. GigaChat также улучшил свои результаты при уточнении запроса, но по-прежнему сталкивался с трудностями в понимании формулировки.

Эксперимент показал, что даже люди, изначально склонные давать числовые ответы, часто переспрашивали условия задачи, демонстрируя ее провокационный характер. Некоторые решали задачу исходя из предположения, что вначале арбуз состоял на 99 или 90 процентов из воды, что приводило их к неправильному числовому ответу. Задача оказалась более сложной, чем может показаться, и может ввести в заблуждение не только ИИ, но и человека.

Выявленная проблема также подчеркивает важность способности ИИ задавать уточняющие вопросы. В то время как некоторые модели могут реагировать на явную просьбу задавать вопросы на английском языке, на русском они, как правило, не проявляют такую инициативу. Улучшение ИИ в понимании и обработке неопределенных запросов, а также развитие способности задавать уточняющие вопросы, является важным направлением для дальнейшего развития нейросетей.


Новое на сайте

19743Artemis: момент, который определит целое поколение 19742Почему в горах реже болеют диабетом? 19741Что скрывается подо льдами Антарктиды и почему страны могут начать за это бороться? 19740ДНК моркови и красного коралла на туринской плащанице 19739Что нового нашёл телескоп NASA в остатках сверхновой, которую китайские астрономы... 19738Куда исчезла минойская цивилизация 1973736 вредоносных npm-пакетов под видом плагинов Strapi: охота на криптовалютную платформу 19736Fortinet экстренно латает критическую дыру в FortiClient EMS, которую уже вовсю... 19735Что за существо, похожее на червя из «дюны», обнаружили в Китае задолго до кембрийского... 19734Может ли старый препарат для трансплантации отсрочить диабет 1 типа? 19733Викторина для любителей осьминогов: что вы знаете о головоногих? 19732Почти сто пусков за плечами, но Artemis II оказался чем-то совершенно другим 19731Как китайский смог оказался связан с арктическими штормами, а мыши избавились от диабета? 19730Почему аллергия передаётся по наследству не так просто, как кажется? 19729Веб-шеллы на PHP, управляемые через куки: как злоумышленники закрепляются на серверах...
Ссылка