Древнегреческая задача вскрыла способность ChatGPT к рассуждению

Исследователи из Кембриджского университета и Еврейского университета в Иерусалиме обнаружили, что ChatGPT демонстрирует поведение, схожее с поведением ученика. Столкнувшись с новой математической задачей, нейросеть попыталась самостоятельно выстроить логическое рассуждение. Её неверный, но импровизированный ответ показал, что модель не просто извлекала данные из памяти, а генерировала новые гипотезы.
Древнегреческая задача вскрыла способность ChatGPT к рассуждению
Изображение носит иллюстративный характер

Эксперимент был построен вокруг задачи об «удвоении квадрата», сформулированной греческим философом Платоном около 385 года до н. э. В своих трудах Платон описывал, как Сократ предложил эту головоломку ученику. Задача состоит в том, чтобы построить квадрат, площадь которого вдвое больше площади исходного. Распространенная ошибка заключается в удвоении длины каждой стороны, что на самом деле увеличивает площадь в четыре раза. Правильное решение: сторона нового квадрата должна быть равна диагонали исходного.

Эта задача возрастом 2400 лет была выбрана исследователями Надавом Марко из Еврейского университета в Иерусалиме и профессором математического образования Кембриджского университета Андреасом Стилианидесом не случайно. Решение проблемы не является очевидным и требует визуально-геометрического подхода. Ученые предположили, что вероятность нахождения готового решения в текстовых данных, на которых обучался ChatGPT, крайне мала. Это создало идеальные условия для проверки способности ИИ к рассуждению, а не к простому воспроизведению информации.

На первом этапе эксперимента ChatGPT успешно справился с классической задачей об удвоении квадрата. Затем исследователи поставили перед ним новую, связанную с предыдущей, задачу: удвоить площадь прямоугольника, используя аналогичные рассуждения. Ответ нейросети был неожиданным: она заявила, что в геометрии не существует решения для удвоения площади прямоугольника.

Логика ChatGPT была ошибочной, но показательной. Модель рассуждала так: поскольку диагональ прямоугольника, в отличие от диагонали квадрата, не может быть использована для удвоения его площади, то решения не существует в принципе. Однако геометрическое решение для удвоения прямоугольника существует. Этот вывод позволил исследователям сделать ключевое заключение.

Надав Марко заявил, что вероятность того, что это конкретное ложное утверждение содержалось в обучающих данных ChatGPT, «ничтожно мала». Это доказывает, что нейросеть не извлекла готовый ответ, а импровизировала, основываясь на предыдущем обсуждении проблемы с квадратом. Вместо запрограммированного знания модель продемонстрировала сгенерированное рассуждение.

18 сентября Надав Марко прокомментировал результаты: «В нашем эксперименте ChatGPT, похоже, сделал нечто похожее на человека. Подобно ученику или ученому, он, казалось, выдвигал собственные гипотезы и решения». Ошибка ИИ была сродни ошибке студента, который чрезмерно обобщает правило, выученное на одном примере, и некорректно применяет его к другой ситуации.

Исследователи предположили, что ChatGPT мог спонтанно использовать механизм, аналогичный концепции «зоны ближайшего развития» (ЗБР). Этот педагогический термин описывает разрыв между тем, что учащийся уже знает, и тем, чего он может достичь под руководством. Эксперимент показал, что с помощью правильных подсказок ИИ может преодолевать этот разрыв для решения задач, отсутствующих в его обучающей базе.

Результаты также являются ярким примером давней проблемы «черного ящика» в ИИ. Внутренние процессы, которые нейросеть использует для достижения вывода, остаются невидимыми и неотслеживаемыми. Мы видим только конечный результат, но не сам ход «мысли».

Полученные данные имеют важные последствия для математического образования. Профессор Андреас Стилианидес отметил: «В отличие от доказательств, найденных в авторитетных учебниках, учащиеся не могут считать доказательства ChatGPT верными по умолчанию». Это означает, что в учебные программы необходимо интегрировать новый ключевой навык: умение понимать и критически оценивать доказательства, сгенерированные искусственным интеллектом.

Ученые рекомендуют преподавателям и студентам использовать совместные запросы, такие как «Я хочу, чтобы мы вместе исследовали эту проблему», вместо того чтобы просто просить готовый ответ. Такой подход способствует созданию более эффективной учебной среды. Команда предостерегает от чрезмерной интерпретации результатов, подчеркивая, что ИИ не «думает» в точности как человек, но его поведение можно охарактеризовать как «похожее на ученика».

Будущие исследования будут направлены на тестирование более новых моделей ИИ с широким спектром математических задач. Планируется объединять большие языковые модели с системами динамической геометрии и программами для автоматического доказательства теорем, создавая более богатые цифровые среды для совместной работы учителей, студентов и ИИ. Полные результаты исследования были опубликованы 17 сентября в журнале International Journal of Mathematical Education in Science and Technology.


Новое на сайте

19216Смертельный симбиоз спама и эксплойтов: как хакеры захватывают корпоративные сети за 11... 19215Как новые SaaS-платформы вроде Starkiller и 1Phish позволяют киберпреступникам незаметно... 19214Инженерия ужаса: как паровые машины и математика создали гений Эдгара Аллана по 19213Трансформация первой линии SOC: три шага к предиктивной безопасности 19212Архитектура смыслов в профессиональной редактуре 19211Манипуляция легитимными редиректами OAuth как вектор скрытых атак на правительственные... 19210Как активно эксплуатируемая уязвимость CVE-2026-21385 в графике Qualcomm привела к... 19209Как беспрецедентный бунт чернокожих женщин в суде Бостона разрушил планы рабовладельцев? 19208Как новые поколения троянов удаленного доступа захватывают системы ради кибершпионажа и... 19207Почему мировые киберпреступники захватили рекламные сети, и как Meta вместе с властями... 19206Как фальшивый пакет StripeApi.Net в NuGet Gallery незаметно похищал финансовые API-токены... 19205Зачем неизвестная группировка UAT-10027 внедряет бэкдор Dohdoor в системы образования и... 19204Ритуальный предсвадебный плач как форма протеста в традиционном Китае 19203Невидимая угроза в оперативной памяти: масштабная атака северокорейских хакеров на... 19202Как уязвимость нулевого дня в Cisco SD-WAN позволяет хакерам незаметно захватывать...
Ссылка