Ssylka

Арбузная загадка: ИИ против неопределенности

Задача с арбузом, где из килограммового плода выпаривается 90% воды, но не указано процентное содержание воды изначально, выявляет слабость нейросетей в распознавании неопределенности. Большинство моделей, включая ChatGPT 4o и GigaChat, поначалу выдавали ошибочные числовые ответы, интерпретируя 90% как долю воды в арбузе, а не только как испарившуюся часть.
Арбузная загадка: ИИ против неопределенности
Изображение носит иллюстративный характер

Новая модель ChatGPT o1 проявила заметный прогресс, корректно указав на невозможность точного числового решения и предложив ответ в общем виде. Это демонстрирует улучшение в способности распознавать неполноту данных, что является ключевым аспектом логического мышления. GigaChat также улучшил свои результаты при уточнении запроса, но по-прежнему сталкивался с трудностями в понимании формулировки.

Эксперимент показал, что даже люди, изначально склонные давать числовые ответы, часто переспрашивали условия задачи, демонстрируя ее провокационный характер. Некоторые решали задачу исходя из предположения, что вначале арбуз состоял на 99 или 90 процентов из воды, что приводило их к неправильному числовому ответу. Задача оказалась более сложной, чем может показаться, и может ввести в заблуждение не только ИИ, но и человека.

Выявленная проблема также подчеркивает важность способности ИИ задавать уточняющие вопросы. В то время как некоторые модели могут реагировать на явную просьбу задавать вопросы на английском языке, на русском они, как правило, не проявляют такую инициативу. Улучшение ИИ в понимании и обработке неопределенных запросов, а также развитие способности задавать уточняющие вопросы, является важным направлением для дальнейшего развития нейросетей.


Новое на сайте

18702Способен ли гигантский комплекс солнечных пятен AR 4294-4296 повторить катастрофическое... 18701Критическая уязвимость максимального уровня в Apache Tika открывает доступ к серверу... 18700Китайские хакеры начали массовую эксплуатацию критической уязвимости React2Shell сразу... 18699Почему именно необходимость социальных связей, а не труд или война, стала главным... 18698Как MSP-провайдеру заменить агрессивные продажи на доверительное партнерство? 18697Почему женская фертильность резко падает после 30 лет и как новый инструмент ученых... 18696Китайский бэкдор BRICKSTORM обнаружен CISA в критических системах США 18695Как уязвимость в DesktopDirect позволяет хакерам внедрять веб-оболочки в шлюзы Array... 18694Зачем строители древнего Шимао замуровывали в фундамент десятки мужских черепов? 18693Способен ли нейротоксин перезагрузить мозг и вылечить ленивый глаз? 18692Самый мощный звездопад 2025 года: полное руководство по наблюдению потока Геминиды 18691Рекордное число окаменелых следов динозавров и плавательных дорожек обнаружено в Боливии 18690Как научиться танцевать с неизбежными системами жизни и оставаться любопытным до... 18689Почему в 2025 году традиционные стратегии веб-безопасности рухнули под натиском ИИ и... 18688Группировка GoldFactory инфицировала тысячи устройств в Азии через модифицированные...