Древнегреческая задача вскрыла способность ChatGPT к рассуждению

Исследователи из Кембриджского университета и Еврейского университета в Иерусалиме обнаружили, что ChatGPT демонстрирует поведение, схожее с поведением ученика. Столкнувшись с новой математической задачей, нейросеть попыталась самостоятельно выстроить логическое рассуждение. Её неверный, но импровизированный ответ показал, что модель не просто извлекала данные из памяти, а генерировала новые гипотезы.
Древнегреческая задача вскрыла способность ChatGPT к рассуждению
Изображение носит иллюстративный характер

Эксперимент был построен вокруг задачи об «удвоении квадрата», сформулированной греческим философом Платоном около 385 года до н. э. В своих трудах Платон описывал, как Сократ предложил эту головоломку ученику. Задача состоит в том, чтобы построить квадрат, площадь которого вдвое больше площади исходного. Распространенная ошибка заключается в удвоении длины каждой стороны, что на самом деле увеличивает площадь в четыре раза. Правильное решение: сторона нового квадрата должна быть равна диагонали исходного.

Эта задача возрастом 2400 лет была выбрана исследователями Надавом Марко из Еврейского университета в Иерусалиме и профессором математического образования Кембриджского университета Андреасом Стилианидесом не случайно. Решение проблемы не является очевидным и требует визуально-геометрического подхода. Ученые предположили, что вероятность нахождения готового решения в текстовых данных, на которых обучался ChatGPT, крайне мала. Это создало идеальные условия для проверки способности ИИ к рассуждению, а не к простому воспроизведению информации.

На первом этапе эксперимента ChatGPT успешно справился с классической задачей об удвоении квадрата. Затем исследователи поставили перед ним новую, связанную с предыдущей, задачу: удвоить площадь прямоугольника, используя аналогичные рассуждения. Ответ нейросети был неожиданным: она заявила, что в геометрии не существует решения для удвоения площади прямоугольника.

Логика ChatGPT была ошибочной, но показательной. Модель рассуждала так: поскольку диагональ прямоугольника, в отличие от диагонали квадрата, не может быть использована для удвоения его площади, то решения не существует в принципе. Однако геометрическое решение для удвоения прямоугольника существует. Этот вывод позволил исследователям сделать ключевое заключение.

Надав Марко заявил, что вероятность того, что это конкретное ложное утверждение содержалось в обучающих данных ChatGPT, «ничтожно мала». Это доказывает, что нейросеть не извлекла готовый ответ, а импровизировала, основываясь на предыдущем обсуждении проблемы с квадратом. Вместо запрограммированного знания модель продемонстрировала сгенерированное рассуждение.

18 сентября Надав Марко прокомментировал результаты: «В нашем эксперименте ChatGPT, похоже, сделал нечто похожее на человека. Подобно ученику или ученому, он, казалось, выдвигал собственные гипотезы и решения». Ошибка ИИ была сродни ошибке студента, который чрезмерно обобщает правило, выученное на одном примере, и некорректно применяет его к другой ситуации.

Исследователи предположили, что ChatGPT мог спонтанно использовать механизм, аналогичный концепции «зоны ближайшего развития» (ЗБР). Этот педагогический термин описывает разрыв между тем, что учащийся уже знает, и тем, чего он может достичь под руководством. Эксперимент показал, что с помощью правильных подсказок ИИ может преодолевать этот разрыв для решения задач, отсутствующих в его обучающей базе.

Результаты также являются ярким примером давней проблемы «черного ящика» в ИИ. Внутренние процессы, которые нейросеть использует для достижения вывода, остаются невидимыми и неотслеживаемыми. Мы видим только конечный результат, но не сам ход «мысли».

Полученные данные имеют важные последствия для математического образования. Профессор Андреас Стилианидес отметил: «В отличие от доказательств, найденных в авторитетных учебниках, учащиеся не могут считать доказательства ChatGPT верными по умолчанию». Это означает, что в учебные программы необходимо интегрировать новый ключевой навык: умение понимать и критически оценивать доказательства, сгенерированные искусственным интеллектом.

Ученые рекомендуют преподавателям и студентам использовать совместные запросы, такие как «Я хочу, чтобы мы вместе исследовали эту проблему», вместо того чтобы просто просить готовый ответ. Такой подход способствует созданию более эффективной учебной среды. Команда предостерегает от чрезмерной интерпретации результатов, подчеркивая, что ИИ не «думает» в точности как человек, но его поведение можно охарактеризовать как «похожее на ученика».

Будущие исследования будут направлены на тестирование более новых моделей ИИ с широким спектром математических задач. Планируется объединять большие языковые модели с системами динамической геометрии и программами для автоматического доказательства теорем, создавая более богатые цифровые среды для совместной работы учителей, студентов и ИИ. Полные результаты исследования были опубликованы 17 сентября в журнале International Journal of Mathematical Education in Science and Technology.


Новое на сайте

19164Уязвимые обучающие приложения открывают доступ к облакам Fortune 500 для криптомайнинга 19163Почему ботнет SSHStalker успешно атакует Linux уязвимостями десятилетней давности? 19162Microsoft устранила шесть уязвимостей нулевого дня и анонсировала радикальные изменения в... 19161Эскалация цифровой угрозы: как IT-специалисты КНДР используют реальные личности для... 19160Скрытые потребности клиентов и преимущество наблюдения над опросами 19159Академическое фиаско Дороти Паркер в Лос-Анджелесе 19158Китайский шпионский фреймворк DKnife захватывает роутеры с 2019 года 19157Каким образом корейские детские хоры 1950-х годов превратили геополитику в музыку и... 19156Научная революция цвета в женской моде викторианской эпохи 19155Как новый сканер Microsoft обнаруживает «спящих агентов» в открытых моделях ИИ? 19154Как новая кампания DEADVAX использует файлы VHD для скрытой доставки трояна AsyncRAT? 19153Как новые китайские киберкампании взламывают госструктуры Юго-Восточной Азии? 19152Культ священного манго и закат эпохи хунвейбинов в маоистском Китае 19151Готовы ли вы к эре коэффициента адаптивности, когда IQ и EQ больше не гарантируют успех? 19150Иранская группировка RedKitten применяет сгенерированный нейросетями код для кибершпионажа
Ссылка