Арбузная загадка: ИИ против неопределенности

Задача с арбузом, где из килограммового плода выпаривается 90% воды, но не указано процентное содержание воды изначально, выявляет слабость нейросетей в распознавании неопределенности. Большинство моделей, включая ChatGPT 4o и GigaChat, поначалу выдавали ошибочные числовые ответы, интерпретируя 90% как долю воды в арбузе, а не только как испарившуюся часть.
Арбузная загадка: ИИ против неопределенности
Изображение носит иллюстративный характер

Новая модель ChatGPT o1 проявила заметный прогресс, корректно указав на невозможность точного числового решения и предложив ответ в общем виде. Это демонстрирует улучшение в способности распознавать неполноту данных, что является ключевым аспектом логического мышления. GigaChat также улучшил свои результаты при уточнении запроса, но по-прежнему сталкивался с трудностями в понимании формулировки.

Эксперимент показал, что даже люди, изначально склонные давать числовые ответы, часто переспрашивали условия задачи, демонстрируя ее провокационный характер. Некоторые решали задачу исходя из предположения, что вначале арбуз состоял на 99 или 90 процентов из воды, что приводило их к неправильному числовому ответу. Задача оказалась более сложной, чем может показаться, и может ввести в заблуждение не только ИИ, но и человека.

Выявленная проблема также подчеркивает важность способности ИИ задавать уточняющие вопросы. В то время как некоторые модели могут реагировать на явную просьбу задавать вопросы на английском языке, на русском они, как правило, не проявляют такую инициативу. Улучшение ИИ в понимании и обработке неопределенных запросов, а также развитие способности задавать уточняющие вопросы, является важным направлением для дальнейшего развития нейросетей.


Новое на сайте

5653"Вечные химикаты" атакуют дикую природу: пресноводные черепахи под ударом 5652Могут ли ядовитые лягушки быть кормушкой для бактерий-гурманов? 5651Как же ресницы отводят воду от глаз? 5649Может ли мусорный бак хранить сокровища? Загадка мраморной богини из Греции 5648Неужели деменция в США станет новой нормой к 2060 году? 5647Нужно ли нам пересмотреть определение ожирения и отказаться от индекса массы тела (имт)? 5646Прорыв в термоядерной энергетике: Китай устанавливает новый мировой рекорд 5645Как правильно выбирать стратегию извлечения данных в ORM? 5644Неужели загадочные "хоры" космоса звучат все дальше от земли? 5643Почему песок – это больше, чем просто пляжи и песочницы? 5642Стоит ли переплачивать за звук: Sennheiser HD 599 по цене, от которой невозможно... 5641Как правильно сопоставить дату и время в JPA и Hibernate? 5640Ледяной удар юга: аномальный снегопад парализовал глубинный юг 5639Могут ли «суперконтиненты» внутри земли перевернуть наши представления о мантии?