Ssylka

Арбузная загадка: ИИ против неопределенности

Задача с арбузом, где из килограммового плода выпаривается 90% воды, но не указано процентное содержание воды изначально, выявляет слабость нейросетей в распознавании неопределенности. Большинство моделей, включая ChatGPT 4o и GigaChat, поначалу выдавали ошибочные числовые ответы, интерпретируя 90% как долю воды в арбузе, а не только как испарившуюся часть.
Арбузная загадка: ИИ против неопределенности
Изображение носит иллюстративный характер

Новая модель ChatGPT o1 проявила заметный прогресс, корректно указав на невозможность точного числового решения и предложив ответ в общем виде. Это демонстрирует улучшение в способности распознавать неполноту данных, что является ключевым аспектом логического мышления. GigaChat также улучшил свои результаты при уточнении запроса, но по-прежнему сталкивался с трудностями в понимании формулировки.

Эксперимент показал, что даже люди, изначально склонные давать числовые ответы, часто переспрашивали условия задачи, демонстрируя ее провокационный характер. Некоторые решали задачу исходя из предположения, что вначале арбуз состоял на 99 или 90 процентов из воды, что приводило их к неправильному числовому ответу. Задача оказалась более сложной, чем может показаться, и может ввести в заблуждение не только ИИ, но и человека.

Выявленная проблема также подчеркивает важность способности ИИ задавать уточняющие вопросы. В то время как некоторые модели могут реагировать на явную просьбу задавать вопросы на английском языке, на русском они, как правило, не проявляют такую инициативу. Улучшение ИИ в понимании и обработке неопределенных запросов, а также развитие способности задавать уточняющие вопросы, является важным направлением для дальнейшего развития нейросетей.


Новое на сайте

19077Каким образом критическая уязвимость CVE-2026-24061 позволяла получать права root на... 19076Роботизированная рука-паук с функцией автономного перемещения и захвата предметов 19075Являлось ли обливание смолой и обваливание в перьях исконно американским изобретением? 19074Критическая уязвимость в Fortinet позволяет хакерам автоматизированно захватывать... 19073Обнаружение древнего святилища геркулеса и элитного погребального комплекса в пригороде... 19072Уникальный случай появления койота на острове алькатрас после изнурительного заплыва... 19071Уникальное искусственное затмение миссии Proba-3 раскрыло редкие солнечные феномены 19070Колоссальный запас древней пресной воды найден под дном атлантического океана 19069Обнаружение челюсти в Эфиопии доказывает сосуществование трех родов гоминидов и расширяет... 19068Память как инструмент правосудия и примирения в постдиктаторском Чили 19067Насколько опасны новые критические уязвимости в Zoom и GitLab? 19066Как умные MSSP используют ИИ для увеличения маржи с половиной штата в реалиях 2026 года? 19065Может ли общение с чат-ботом GPT-4o привести к психозу и вере в цифровое воскрешение? 19064Почему традиционные методы управления уязвимостями уступают место платформам оценки... 19063Почему критические уязвимости в Chainlit и Microsoft MCP открывают хакерам полный доступ...