Древнегреческая задача вскрыла способность ChatGPT к рассуждению

Исследователи из Кембриджского университета и Еврейского университета в Иерусалиме обнаружили, что ChatGPT демонстрирует поведение, схожее с поведением ученика. Столкнувшись с новой математической задачей, нейросеть попыталась самостоятельно выстроить логическое рассуждение. Её неверный, но импровизированный ответ показал, что модель не просто извлекала данные из памяти, а генерировала новые гипотезы.
Древнегреческая задача вскрыла способность ChatGPT к рассуждению

Древнегреческая задача вскрыла способность ChatGPT к рассуждению

Изображение носит иллюстративный характер

Эксперимент был построен вокруг задачи об «удвоении квадрата», сформулированной греческим философом Платоном около 385 года до н. э. В своих трудах Платон описывал, как Сократ предложил эту головоломку ученику. Задача состоит в том, чтобы построить квадрат, площадь которого вдвое больше площади исходного. Распространенная ошибка заключается в удвоении длины каждой стороны, что на самом деле увеличивает площадь в четыре раза. Правильное решение: сторона нового квадрата должна быть равна диагонали исходного.

Эта задача возрастом 2400 лет была выбрана исследователями Надавом Марко из Еврейского университета в Иерусалиме и профессором математического образования Кембриджского университета Андреасом Стилианидесом не случайно. Решение проблемы не является очевидным и требует визуально-геометрического подхода. Ученые предположили, что вероятность нахождения готового решения в текстовых данных, на которых обучался ChatGPT, крайне мала. Это создало идеальные условия для проверки способности ИИ к рассуждению, а не к простому воспроизведению информации.

На первом этапе эксперимента ChatGPT успешно справился с классической задачей об удвоении квадрата. Затем исследователи поставили перед ним новую, связанную с предыдущей, задачу: удвоить площадь прямоугольника, используя аналогичные рассуждения. Ответ нейросети был неожиданным: она заявила, что в геометрии не существует решения для удвоения площади прямоугольника.

Логика ChatGPT была ошибочной, но показательной. Модель рассуждала так: поскольку диагональ прямоугольника, в отличие от диагонали квадрата, не может быть использована для удвоения его площади, то решения не существует в принципе. Однако геометрическое решение для удвоения прямоугольника существует. Этот вывод позволил исследователям сделать ключевое заключение.

Надав Марко заявил, что вероятность того, что это конкретное ложное утверждение содержалось в обучающих данных ChatGPT, «ничтожно мала». Это доказывает, что нейросеть не извлекла готовый ответ, а импровизировала, основываясь на предыдущем обсуждении проблемы с квадратом. Вместо запрограммированного знания модель продемонстрировала сгенерированное рассуждение.

18 сентября Надав Марко прокомментировал результаты: «В нашем эксперименте ChatGPT, похоже, сделал нечто похожее на человека. Подобно ученику или ученому, он, казалось, выдвигал собственные гипотезы и решения». Ошибка ИИ была сродни ошибке студента, который чрезмерно обобщает правило, выученное на одном примере, и некорректно применяет его к другой ситуации.

Исследователи предположили, что ChatGPT мог спонтанно использовать механизм, аналогичный концепции «зоны ближайшего развития» (ЗБР). Этот педагогический термин описывает разрыв между тем, что учащийся уже знает, и тем, чего он может достичь под руководством. Эксперимент показал, что с помощью правильных подсказок ИИ может преодолевать этот разрыв для решения задач, отсутствующих в его обучающей базе.

Результаты также являются ярким примером давней проблемы «черного ящика» в ИИ. Внутренние процессы, которые нейросеть использует для достижения вывода, остаются невидимыми и неотслеживаемыми. Мы видим только конечный результат, но не сам ход «мысли».

Полученные данные имеют важные последствия для математического образования. Профессор Андреас Стилианидес отметил: «В отличие от доказательств, найденных в авторитетных учебниках, учащиеся не могут считать доказательства ChatGPT верными по умолчанию». Это означает, что в учебные программы необходимо интегрировать новый ключевой навык: умение понимать и критически оценивать доказательства, сгенерированные искусственным интеллектом.

Ученые рекомендуют преподавателям и студентам использовать совместные запросы, такие как «Я хочу, чтобы мы вместе исследовали эту проблему», вместо того чтобы просто просить готовый ответ. Такой подход способствует созданию более эффективной учебной среды. Команда предостерегает от чрезмерной интерпретации результатов, подчеркивая, что ИИ не «думает» в точности как человек, но его поведение можно охарактеризовать как «похожее на ученика».

Будущие исследования будут направлены на тестирование более новых моделей ИИ с широким спектром математических задач. Планируется объединять большие языковые модели с системами динамической геометрии и программами для автоматического доказательства теорем, создавая более богатые цифровые среды для совместной работы учителей, студентов и ИИ. Полные результаты исследования были опубликованы 17 сентября в журнале International Journal of Mathematical Education in Science and Technology.

Источник: Drew Turney

Древнегреческая задача вскрыла способность ChatGPT к рассуждению

Новое на сайте