В середине мая, в выходные 17 и 18 числа, в Беркли, штат Калифорния, состоялось секретное собрание. Тридцать ведущих математиков мира собрались с одной целью: бросить вызов новейшей модели искусственного интеллекта, разработанной компанией OpenAI. Их задача заключалась в том, чтобы составить задачи, которые они могли бы решить сами, но которые оказались бы слишком сложными для ИИ. За каждую нерешенную машиной проблему была обещана награда в размере 7500 долларов.

Результаты этого противостояния ошеломили участников. Модель искусственного интеллекта, названная o4-mini, успешно справилась с некоторыми из самых сложных предложенных ей задач профессорского уровня. В конечном итоге группа математиков смогла найти лишь 10 вопросов, на которые бот не смог дать ответ, что продемонстрировало беспрецедентный уровень логического мышления машины.
Модель o4-mini не является традиционной большой языковой моделью (LLM). OpenAI описывает ее как «рассуждающую LLM», которая отличается меньшим весом и большей гибкостью. Она была обучена на специализированных наборах данных с усиленной обратной связью от людей, что позволяет ей «гораздо глубже погружаться в сложные математические проблемы». Подобными возможностями, как отмечается, обладает и конкурирующая модель Gemini 2.5 Flash от Google.
Тестирование проходило в рамках проекта FrontierMath, организованного в сотрудничестве с некоммерческой организацией Epoch AI, которая занимается сравнительным анализом языковых моделей. Изначально Epoch AI создала 300 неопубликованных математических задач. Традиционные LLM смогли решить менее 2% из них, доказав отсутствие у них подлинных способностей к рассуждению. Для руководства проектом в сентябре 2024 года был нанят Эллиот Глейзер, недавно получивший докторскую степень по математике.
Задачи в проекте были разделены на несколько уровней сложности. Уровни 1-3 включали задачи для студентов, аспирантов и исследовательского уровня. Встреча в Беркли была сосредоточена на задачах 4-го уровня, которые представляют сложность даже для академических математиков. Существует также гипотетический 5-й уровень, включающий вопросы, которые не могут решить даже лучшие математики-люди. Для обеспечения чистоты эксперимента все участники подписали соглашение о неразглашении и использовали мессенджер Signal, чтобы ИИ не мог случайно обучаться на их переписке.
Самый поразительный пример возможностей o4-mini продемонстрировал Кен Оно, математик из Университета Вирджинии и один из судей на мероприятии. Он предложил модели «хорошую задачу уровня аспирантуры», которая считается открытым вопросом в теории чисел. Весь процесс решения занял у искусственного интеллекта всего 10 минут.
В первые две минуты o4-mini нашел и освоил всю необходимую литературу по теме. Затем он решил сначала разобраться с более простой, «игрушечной» версией проблемы, чтобы изучить ее принципы. Через несколько минут модель заявила, что готова приступить к решению основной, более сложной задачи. Спустя еще пять минут она представила правильное и полное решение.
Свое решение искусственный интеллект сопроводил самоуверенным заключением: «Цитирование не требуется, поскольку загадочное число было вычислено мной!». Реакция Кена Оно была смесью шока, разочарования и даже страха. «Я никогда раньше не видел такого рода рассуждений в моделях. Именно так поступает ученый», — заявил он.
Участники встречи были поражены прогрессом, достигнутым всего за один год. Кен Оно сравнил работу с o4-mini с наличием «сильного соавтора». Другой математик, Ян Хуэй Хэ, отметил, что модель работает лучше, чем «очень, очень хороший аспирант». ИИ решал за минуты проблемы, на которые у человека-эксперта ушли бы недели или месяцы.
Однако столь впечатляющие результаты вызывают и серьезные опасения. Эксперты обеспокоены феноменом, который они назвали «доказательством путем запугивания». Уверенный тон, с которым ИИ представляет свои выводы, может заставить людей чрезмерно доверять его результатам, даже если они окажутся неверными.
Появление таких мощных инструментов может кардинально изменить роль самих математиков. В будущем они могут сместиться с позиции решателей проблем на позицию постановщиков задач, направляя исследования ИИ подобно тому, как профессора руководят аспирантами. По мнению Кена Оно, в новой реальности решающее значение приобретет развитие творческого мышления в системе высшего образования.

Изображение носит иллюстративный характер
Результаты этого противостояния ошеломили участников. Модель искусственного интеллекта, названная o4-mini, успешно справилась с некоторыми из самых сложных предложенных ей задач профессорского уровня. В конечном итоге группа математиков смогла найти лишь 10 вопросов, на которые бот не смог дать ответ, что продемонстрировало беспрецедентный уровень логического мышления машины.
Модель o4-mini не является традиционной большой языковой моделью (LLM). OpenAI описывает ее как «рассуждающую LLM», которая отличается меньшим весом и большей гибкостью. Она была обучена на специализированных наборах данных с усиленной обратной связью от людей, что позволяет ей «гораздо глубже погружаться в сложные математические проблемы». Подобными возможностями, как отмечается, обладает и конкурирующая модель Gemini 2.5 Flash от Google.
Тестирование проходило в рамках проекта FrontierMath, организованного в сотрудничестве с некоммерческой организацией Epoch AI, которая занимается сравнительным анализом языковых моделей. Изначально Epoch AI создала 300 неопубликованных математических задач. Традиционные LLM смогли решить менее 2% из них, доказав отсутствие у них подлинных способностей к рассуждению. Для руководства проектом в сентябре 2024 года был нанят Эллиот Глейзер, недавно получивший докторскую степень по математике.
Задачи в проекте были разделены на несколько уровней сложности. Уровни 1-3 включали задачи для студентов, аспирантов и исследовательского уровня. Встреча в Беркли была сосредоточена на задачах 4-го уровня, которые представляют сложность даже для академических математиков. Существует также гипотетический 5-й уровень, включающий вопросы, которые не могут решить даже лучшие математики-люди. Для обеспечения чистоты эксперимента все участники подписали соглашение о неразглашении и использовали мессенджер Signal, чтобы ИИ не мог случайно обучаться на их переписке.
Самый поразительный пример возможностей o4-mini продемонстрировал Кен Оно, математик из Университета Вирджинии и один из судей на мероприятии. Он предложил модели «хорошую задачу уровня аспирантуры», которая считается открытым вопросом в теории чисел. Весь процесс решения занял у искусственного интеллекта всего 10 минут.
В первые две минуты o4-mini нашел и освоил всю необходимую литературу по теме. Затем он решил сначала разобраться с более простой, «игрушечной» версией проблемы, чтобы изучить ее принципы. Через несколько минут модель заявила, что готова приступить к решению основной, более сложной задачи. Спустя еще пять минут она представила правильное и полное решение.
Свое решение искусственный интеллект сопроводил самоуверенным заключением: «Цитирование не требуется, поскольку загадочное число было вычислено мной!». Реакция Кена Оно была смесью шока, разочарования и даже страха. «Я никогда раньше не видел такого рода рассуждений в моделях. Именно так поступает ученый», — заявил он.
Участники встречи были поражены прогрессом, достигнутым всего за один год. Кен Оно сравнил работу с o4-mini с наличием «сильного соавтора». Другой математик, Ян Хуэй Хэ, отметил, что модель работает лучше, чем «очень, очень хороший аспирант». ИИ решал за минуты проблемы, на которые у человека-эксперта ушли бы недели или месяцы.
Однако столь впечатляющие результаты вызывают и серьезные опасения. Эксперты обеспокоены феноменом, который они назвали «доказательством путем запугивания». Уверенный тон, с которым ИИ представляет свои выводы, может заставить людей чрезмерно доверять его результатам, даже если они окажутся неверными.
Появление таких мощных инструментов может кардинально изменить роль самих математиков. В будущем они могут сместиться с позиции решателей проблем на позицию постановщиков задач, направляя исследования ИИ подобно тому, как профессора руководят аспирантами. По мнению Кена Оно, в новой реальности решающее значение приобретет развитие творческого мышления в системе высшего образования.