Арбузная загадка: ИИ против неопределенности

Задача с арбузом, где из килограммового плода выпаривается 90% воды, но не указано процентное содержание воды изначально, выявляет слабость нейросетей в распознавании неопределенности. Большинство моделей, включая ChatGPT 4o и GigaChat, поначалу выдавали ошибочные числовые ответы, интерпретируя 90% как долю воды в арбузе, а не только как испарившуюся часть.
Арбузная загадка: ИИ против неопределенности
Изображение носит иллюстративный характер

Новая модель ChatGPT o1 проявила заметный прогресс, корректно указав на невозможность точного числового решения и предложив ответ в общем виде. Это демонстрирует улучшение в способности распознавать неполноту данных, что является ключевым аспектом логического мышления. GigaChat также улучшил свои результаты при уточнении запроса, но по-прежнему сталкивался с трудностями в понимании формулировки.

Эксперимент показал, что даже люди, изначально склонные давать числовые ответы, часто переспрашивали условия задачи, демонстрируя ее провокационный характер. Некоторые решали задачу исходя из предположения, что вначале арбуз состоял на 99 или 90 процентов из воды, что приводило их к неправильному числовому ответу. Задача оказалась более сложной, чем может показаться, и может ввести в заблуждение не только ИИ, но и человека.

Выявленная проблема также подчеркивает важность способности ИИ задавать уточняющие вопросы. В то время как некоторые модели могут реагировать на явную просьбу задавать вопросы на английском языке, на русском они, как правило, не проявляют такую инициативу. Улучшение ИИ в понимании и обработке неопределенных запросов, а также развитие способности задавать уточняющие вопросы, является важным направлением для дальнейшего развития нейросетей.


Новое на сайте

19188Критическая уязвимость в решениях BeyondTrust спровоцировала глобальную волну кражи... 19187Эволюция угроз: атака на цепочку поставок ИИ-ассистента Cline CLI через уязвимость... 19186Как фальшивая проверка Cloudflare в кампании ClickFix скрыто внедряет новый троян... 19185Почему гендерно-нейтральные корпоративные политики становятся главным инструментом... 19184Как искусственный интеллект уничтожил временной зазор между обнаружением уязвимости и... 19183Банковский троян Massiv маскируется под IPTV для захвата контроля над Android 19182Как шпионская кампания CRESCENTHARVEST использует социальную инженерию для кражи данных... 19181Как критическая уязвимость в телефонах Grandstream открывает хакерам доступ к... 19180Почему операционная непрерывность становится единственным ответом на перманентную... 19179Критические уязвимости в популярных расширениях VS Code угрожают миллионам разработчиков 19178Как внедрить интеллектуальные рабочие процессы и почему 88% проектов ИИ терпят неудачу? 19177Критическая уязвимость нулевого дня в Dell RecoverPoint открывает злоумышленникам полный... 19176Notepad++ внедряет механизм двойной блокировки для защиты от атак группировки Lotus Panda 19175Новые угрозы в каталоге CISA: от критических дыр в Chrome и Zimbra до возвращения червя... 19174Использование чат-ботов Copilot и Grok в качестве скрытых прокси-серверов для управления...
Ссылка