Ssylka

Арбузная загадка: ИИ против неопределенности

Задача с арбузом, где из килограммового плода выпаривается 90% воды, но не указано процентное содержание воды изначально, выявляет слабость нейросетей в распознавании неопределенности. Большинство моделей, включая ChatGPT 4o и GigaChat, поначалу выдавали ошибочные числовые ответы, интерпретируя 90% как долю воды в арбузе, а не только как испарившуюся часть.
Арбузная загадка: ИИ против неопределенности
Изображение носит иллюстративный характер

Новая модель ChatGPT o1 проявила заметный прогресс, корректно указав на невозможность точного числового решения и предложив ответ в общем виде. Это демонстрирует улучшение в способности распознавать неполноту данных, что является ключевым аспектом логического мышления. GigaChat также улучшил свои результаты при уточнении запроса, но по-прежнему сталкивался с трудностями в понимании формулировки.

Эксперимент показал, что даже люди, изначально склонные давать числовые ответы, часто переспрашивали условия задачи, демонстрируя ее провокационный характер. Некоторые решали задачу исходя из предположения, что вначале арбуз состоял на 99 или 90 процентов из воды, что приводило их к неправильному числовому ответу. Задача оказалась более сложной, чем может показаться, и может ввести в заблуждение не только ИИ, но и человека.

Выявленная проблема также подчеркивает важность способности ИИ задавать уточняющие вопросы. В то время как некоторые модели могут реагировать на явную просьбу задавать вопросы на английском языке, на русском они, как правило, не проявляют такую инициативу. Улучшение ИИ в понимании и обработке неопределенных запросов, а также развитие способности задавать уточняющие вопросы, является важным направлением для дальнейшего развития нейросетей.


Новое на сайте

18946Китайская группировка UAT-7290 атакует телекоммуникационный сектор с помощью... 18945Почему у человечества осталось менее трех суток на спасение орбиты в случае глобального... 18944Как искусственный интеллект и сломанная экономика уничтожают долгосрочное планирование 18943Каким образом Брэд берд переосмыслил «железного человека» Теда Хьюза и сместил фокус... 18942Аномально быстрое вращение астероида 2025 MN45 меняет научные представления о структуре... 18941Зачем OpenAI запускает защищенный режим ChatGPT Health для работы с медицинскими данными? 18940CISA экстренно обновляет каталог KEV критическими уязвимостями Microsoft и HPE 18939Могла ли найденная в Норфолке 2000-летняя боевая труба звучать в войнах королевы Боудикки? 18938Генетики впервые извлекли днк Леонардо да Винчи из рисунка эпохи возрождения 18937Масштабная кампания группировки Black Cat инфицировала сотни тысяч устройств через... 18936Что показала первая 3D-карта вселенной от телескопа SPHEREx и почему уникальной миссии... 18935Уникальный ритуал обезглавливания и кремации древней охотницы в Малави 18934Как «энергетическая подпитка» нервных клеток митохондриями может навсегда избавить от... 18933Являются ли найденные в Касабланке окаменелости возрастом 773 000 лет общим предком... 18932Как неправильная маршрутизация электронной почты позволяет хакерам выдавать себя за...