Арбузная загадка: ИИ против неопределенности

Задача с арбузом, где из килограммового плода выпаривается 90% воды, но не указано процентное содержание воды изначально, выявляет слабость нейросетей в распознавании неопределенности. Большинство моделей, включая ChatGPT 4o и GigaChat, поначалу выдавали ошибочные числовые ответы, интерпретируя 90% как долю воды в арбузе, а не только как испарившуюся часть.
Арбузная загадка: ИИ против неопределенности
Изображение носит иллюстративный характер

Новая модель ChatGPT o1 проявила заметный прогресс, корректно указав на невозможность точного числового решения и предложив ответ в общем виде. Это демонстрирует улучшение в способности распознавать неполноту данных, что является ключевым аспектом логического мышления. GigaChat также улучшил свои результаты при уточнении запроса, но по-прежнему сталкивался с трудностями в понимании формулировки.

Эксперимент показал, что даже люди, изначально склонные давать числовые ответы, часто переспрашивали условия задачи, демонстрируя ее провокационный характер. Некоторые решали задачу исходя из предположения, что вначале арбуз состоял на 99 или 90 процентов из воды, что приводило их к неправильному числовому ответу. Задача оказалась более сложной, чем может показаться, и может ввести в заблуждение не только ИИ, но и человека.

Выявленная проблема также подчеркивает важность способности ИИ задавать уточняющие вопросы. В то время как некоторые модели могут реагировать на явную просьбу задавать вопросы на английском языке, на русском они, как правило, не проявляют такую инициативу. Улучшение ИИ в понимании и обработке неопределенных запросов, а также развитие способности задавать уточняющие вопросы, является важным направлением для дальнейшего развития нейросетей.


Новое на сайте

19791Гражданская война шимпанзе в Уганде 19790Кибершпионы UAT-10362 охотятся на тайваньские нко с помощью малвари LucidRook 19789Телескоп Джеймса Уэбба обнаружил галактику-«ската» в скоплении MACS J1149 19788Комета MAPS сгорела в солнечной короне и вылетела облаком обломков 19787Кто стоит за кибератаками на журналистов ближнего Востока и зачем Индии понадобилась... 19786Теневой ИИ в компаниях: угроза, которую не видят безопасники 19785Почему NASA спокойно относится к проблеме с теплозащитным экраном Artemis II? 19784Шифрование видео, которое не сломает даже квантовый компьютер 19783Западу США грозит аномально опасный сезон пожаров 19782Белок, который не должен убивать: как одна гипотеза перевернула биологию 19781Серебряная монета XVI века указала на затерянную испанскую колонию у магелланова пролива 19780Что за загадочные клетки появляются в организме женщины только во время беременности? 19779Кератин как тормоз воспаления: неожиданная роль знакомого белка 19778Ботнет Chaos перенацелился на облака и обзавёлся SOCKS-прокси 19777Когда комета PanSTARRS станет видна невооружённым глазом?
Ссылка