Арбузная загадка: ИИ против неопределенности

Задача с арбузом, где из килограммового плода выпаривается 90% воды, но не указано процентное содержание воды изначально, выявляет слабость нейросетей в распознавании неопределенности. Большинство моделей, включая ChatGPT 4o и GigaChat, поначалу выдавали ошибочные числовые ответы, интерпретируя 90% как долю воды в арбузе, а не только как испарившуюся часть.
Арбузная загадка: ИИ против неопределенности
Изображение носит иллюстративный характер

Новая модель ChatGPT o1 проявила заметный прогресс, корректно указав на невозможность точного числового решения и предложив ответ в общем виде. Это демонстрирует улучшение в способности распознавать неполноту данных, что является ключевым аспектом логического мышления. GigaChat также улучшил свои результаты при уточнении запроса, но по-прежнему сталкивался с трудностями в понимании формулировки.

Эксперимент показал, что даже люди, изначально склонные давать числовые ответы, часто переспрашивали условия задачи, демонстрируя ее провокационный характер. Некоторые решали задачу исходя из предположения, что вначале арбуз состоял на 99 или 90 процентов из воды, что приводило их к неправильному числовому ответу. Задача оказалась более сложной, чем может показаться, и может ввести в заблуждение не только ИИ, но и человека.

Выявленная проблема также подчеркивает важность способности ИИ задавать уточняющие вопросы. В то время как некоторые модели могут реагировать на явную просьбу задавать вопросы на английском языке, на русском они, как правило, не проявляют такую инициативу. Улучшение ИИ в понимании и обработке неопределенных запросов, а также развитие способности задавать уточняющие вопросы, является важным направлением для дальнейшего развития нейросетей.


Новое на сайте

20204Дыра в Argo CD: почему 18 месяцев без патча — это катастрофа? 20203WhatsApp запускает имена пользователей: теперь можно общаться без раскрытия номера... 20202Почему США пришлось заморозить сильнейший ИИ Anthropic — и чего это стоило отрасли? 20201Ousaban: бразильский банковский троян, который охотится на клиентов испанских и... 20200Три новые группировки вымогателей: Citrix Bleed 2, уязвимые драйверы и атаки через... 20198Тупиковый майнинг биткоина тратит столько энергии, сколько вырабатывают все гэс Швейцарии... 20197DuneSlide: как два скрытых промпта позволяли захватить машину разработчика через Cursor 20196Уязвимость в Progress Kemp LoadMaster: кто уже пытается взломать ваш балансировщик? 20194Критическая уязвимость в SimpleHelp позволяет красть данные из облаков, кошельков и... 20193Ультрабыстрые лазеры поместились на чип: как журналистика о науке работает без самой науки 20192Почему Adobe выпускает патчи дважды в месяц и что скрывается за семью уязвимостями с... 20191Два миллиона домашних устройств работали прокси-сетью — и никто из владельцев об этом не...
Ссылка