Современные модели искусственного интеллекта, такие как Grok, демонстрируют так называемый «колючий интеллект»: они могут блестяще сдать экзамен на уровне аспирантуры, но при этом потерпеть неудачу при решении простых задач, требующих общего логического мышления. Этот разрыв в способностях подчеркивает фундаментальное различие между ИИ и человеческим разумом — способность к обобщению. Люди могут адаптироваться к совершенно новым ситуациям, основываясь на минимальном количестве информации, в то время как ИИ для этого требуются огромные массивы данных.

Ключевым инструментом для измерения этой способности является Abstraction and Reasoning Corpus (ARC) — набор тестов, разработанный в 2019 году исследователем в области ИИ Франсуа Шолле. ARC состоит из головоломок с цветными сетками, где испытуемому необходимо на основе нескольких примеров вывести скрытое правило и применить его к новой сетке. Для человека это простая задача, но для машин — чрезвычайно сложная.
Администрированием и развитием этих тестов занимается некоммерческая организация ARC Prize Foundation под руководством президента Грега Камрадта. Фонд не только проводит тестирование, но и разрабатывает новые эталонные тесты, которые используются всеми ведущими разработчиками ИИ для оценки своих моделей. Именно эти тесты позволяют объективно измерить то, что можно назвать истинным интеллектом: способность осваивать новый «мини-навык» в контролируемой среде.
Первая версия теста, ARC-AGI-1, созданная лично Франсуа Шолле в 2019 году, содержала около 1000 заданий. В течение пяти лет модели глубокого обучения не могли добиться на нем существенного прогресса. Ситуация изменилась только в 2024 году, когда новые модели логического вывода от OpenAI, такие как o3, продемонстрировали «ступенчатый скачок» в своих возможностях, впервые показав заметные результаты.
Следующая версия, ARC-AGI-2, представляет собой более сложную итерацию. Задачи в ней требуют большего планирования, сетки крупнее, а правила сложнее. Если человек решает головоломки из первой версии за секунды, то на задачи из второй у него уходит минута или две. Этот тест еще точнее измеряет глубину интуитивного мышления.
Результаты людей на ARC-AGI-2 показывают колоссальное превосходство человеческого разума. В ходе тестирования 400 человек, прошедших демографический отбор, средний балл составил 66%. Более того, совокупности ответов группы всего из 5–10 человек оказалось достаточно, чтобы правильно решить все задания теста. Это доказывает, что мыслительный процесс в человеческом мозге «на порядки лучше и эффективнее», чем у современных ИИ. Люди обладают невероятной эффективностью выборки, усваивая новый навык из одного или двух примеров.
На текущей неделе был представлен предварительный просмотр ARC-AGI-3, который является полным отходом от формата головоломок. Это «агентный бенчмарк», состоящий из 100 совершенно новых двухмерных видеоигр на основе пикселей. Каждый уровень в игре обучает определенному «мини-навыку», и для его прохождения ИИ должен продемонстрировать способность к планированию и выполнению последовательности действий.
Этот новый формат предназначен для проверки навыков, которые невозможно оценить с помощью статичных тестов типа «вопрос-ответ», а именно планирования, исследования и интуитивного понимания целей среды. Результаты внутреннего тестирования ARC-AGI-3 оказались показательными: на данный момент «ни один ИИ не смог пройти даже один уровень ни одной из игр».
Подход ARC к тестированию кардинально отличается от традиционных бенчмарков. Его основной принцип заключается в том, что эталонные тесты должны быть решаемыми для среднего человека. Это гарантирует, что измеряется именно способность к обобщению, а не вычислительная мощность для решения «задач уровня доктора наук с плюсом».
Этот принцип особенно важен в сравнении с тестами на основе популярных видеоигр, таких как Atari. Для таких игр существуют огромные объемы общедоступных данных для обучения, что позволяет ИИ использовать их. Кроме того, старые тесты часто допускают решения методом перебора миллиардов симуляций, а сами разработчики ИИ могут заранее знать особенности игры.
ARC-AGI-3 исключает эти недостатки. Игры абсолютно новые, их не видел ни ИИ, ни его создатели. Это предотвращает использование предварительных знаний или данных и заставляет систему полагаться исключительно на свою способность к обучению и адаптации в реальном времени.
Подобные тесты позволяют сформулировать более точное определение общего искусственного интеллекта (ОИИ). С технической точки зрения, ОИИ — это система, способная соответствовать эффективности обучения человека. С точки зрения наблюдения, это момент, когда «мы больше не можем придумать задачи, которые могут выполнять люди, а ИИ — нет». Судя по результатам ARC, до этого момента еще далеко.

Изображение носит иллюстративный характер
Ключевым инструментом для измерения этой способности является Abstraction and Reasoning Corpus (ARC) — набор тестов, разработанный в 2019 году исследователем в области ИИ Франсуа Шолле. ARC состоит из головоломок с цветными сетками, где испытуемому необходимо на основе нескольких примеров вывести скрытое правило и применить его к новой сетке. Для человека это простая задача, но для машин — чрезвычайно сложная.
Администрированием и развитием этих тестов занимается некоммерческая организация ARC Prize Foundation под руководством президента Грега Камрадта. Фонд не только проводит тестирование, но и разрабатывает новые эталонные тесты, которые используются всеми ведущими разработчиками ИИ для оценки своих моделей. Именно эти тесты позволяют объективно измерить то, что можно назвать истинным интеллектом: способность осваивать новый «мини-навык» в контролируемой среде.
Первая версия теста, ARC-AGI-1, созданная лично Франсуа Шолле в 2019 году, содержала около 1000 заданий. В течение пяти лет модели глубокого обучения не могли добиться на нем существенного прогресса. Ситуация изменилась только в 2024 году, когда новые модели логического вывода от OpenAI, такие как o3, продемонстрировали «ступенчатый скачок» в своих возможностях, впервые показав заметные результаты.
Следующая версия, ARC-AGI-2, представляет собой более сложную итерацию. Задачи в ней требуют большего планирования, сетки крупнее, а правила сложнее. Если человек решает головоломки из первой версии за секунды, то на задачи из второй у него уходит минута или две. Этот тест еще точнее измеряет глубину интуитивного мышления.
Результаты людей на ARC-AGI-2 показывают колоссальное превосходство человеческого разума. В ходе тестирования 400 человек, прошедших демографический отбор, средний балл составил 66%. Более того, совокупности ответов группы всего из 5–10 человек оказалось достаточно, чтобы правильно решить все задания теста. Это доказывает, что мыслительный процесс в человеческом мозге «на порядки лучше и эффективнее», чем у современных ИИ. Люди обладают невероятной эффективностью выборки, усваивая новый навык из одного или двух примеров.
На текущей неделе был представлен предварительный просмотр ARC-AGI-3, который является полным отходом от формата головоломок. Это «агентный бенчмарк», состоящий из 100 совершенно новых двухмерных видеоигр на основе пикселей. Каждый уровень в игре обучает определенному «мини-навыку», и для его прохождения ИИ должен продемонстрировать способность к планированию и выполнению последовательности действий.
Этот новый формат предназначен для проверки навыков, которые невозможно оценить с помощью статичных тестов типа «вопрос-ответ», а именно планирования, исследования и интуитивного понимания целей среды. Результаты внутреннего тестирования ARC-AGI-3 оказались показательными: на данный момент «ни один ИИ не смог пройти даже один уровень ни одной из игр».
Подход ARC к тестированию кардинально отличается от традиционных бенчмарков. Его основной принцип заключается в том, что эталонные тесты должны быть решаемыми для среднего человека. Это гарантирует, что измеряется именно способность к обобщению, а не вычислительная мощность для решения «задач уровня доктора наук с плюсом».
Этот принцип особенно важен в сравнении с тестами на основе популярных видеоигр, таких как Atari. Для таких игр существуют огромные объемы общедоступных данных для обучения, что позволяет ИИ использовать их. Кроме того, старые тесты часто допускают решения методом перебора миллиардов симуляций, а сами разработчики ИИ могут заранее знать особенности игры.
ARC-AGI-3 исключает эти недостатки. Игры абсолютно новые, их не видел ни ИИ, ни его создатели. Это предотвращает использование предварительных знаний или данных и заставляет систему полагаться исключительно на свою способность к обучению и адаптации в реальном времени.
Подобные тесты позволяют сформулировать более точное определение общего искусственного интеллекта (ОИИ). С технической точки зрения, ОИИ — это система, способная соответствовать эффективности обучения человека. С точки зрения наблюдения, это момент, когда «мы больше не можем придумать задачи, которые могут выполнять люди, а ИИ — нет». Судя по результатам ARC, до этого момента еще далеко.