Сможет ли ИИ сдать «последний экзамен человечества»?

Где-то на стыке амбиций и тревоги родился тест, который его авторы без ложной скромности назвали «Последний экзамен человечества» (Humanity's Last Exam). Название звучит как заголовок фантастического фильма, но речь о вполне реальном проекте — новой системе оценки, созданной специально для того, чтобы проверить пределы возможностей самых продвинутых моделей искусственного интеллекта.

Задумка у экзамена простая, хотя и немного пугающая. Нужно понять, насколько близко современные ИИ-модели подобрались к уровню человеческого знания. Или, может быть, уже перешагнули его. Создатели теста утверждают, что это «самый сложный экзамен в мире». Не для людей — для машин. Хотя, если честно, после знакомства с описанием теста возникает подозрение, что и большинство людей его бы не осилили.

Стандартные бенчмарки, которыми индустрия пользовалась последние годы, перестали работать как индикаторы. Лучшие языковые модели уже давно щёлкают их как орешки. Сдают юридические экзамены, решают олимпиадные задачи по математике, пишут код на уровне опытного разработчика. Старые тесты попросту не успевают за прогрессом. Нужен был новый барьер — такой, который хотя бы на какое-то время окажется непреодолимым.

Humanity's Last Exam претендует именно на эту роль. Он спроектирован так, чтобы покрыть весь спектр человеческих знаний — от узкоспециальных научных дисциплин до областей, где требуется нетривиальное мышление и способность к обобщению. Идея не в том, чтобы проверить, умеет ли ИИ гуглить. Идея в том, чтобы выяснить, способен ли он думать.

И вот тут начинается самое интересное. Если какая-то модель когда-нибудь сдаст этот экзамен на отлично, это может стать первым реальным сигналом приближения к так называемому AGI — искусственному общему интеллекту. То есть к системе, которая обладает когнитивными способностями на уровне человека (или выше) не в одной узкой области, а в принципе. Везде сразу.

AGI пока остаётся скорее теоретическим понятием. Никто точно не знает, как он будет выглядеть и по каким критериям его фиксировать. Собственно, Humanity's Last Exam — это попытка хотя бы отчасти формализировать этот вопрос. Дать какую-то измеримую планку вместо бесконечных споров в твиттере.

Правда, скептики справедливо замечают: а что, если экзамен проверяет не интеллект как таковой, а лишь объём запомненной информации и способность её комбинировать? Человеческий разум — штука хитрая, он включает интуицию, эмоциональный контекст, умение действовать в условиях полной неопределённости. Можно ли всё это упаковать в формат теста? Вопрос открытый.

Тем не менее сам факт появления такого экзамена говорит о многом. Ещё пять лет назад подобный проект выглядел бы преждевременным. Сегодня, когда каждый квартал выходит очередная модель, ломающая прежние рекорды, идея финального рубежа перестала казаться фантастикой. Скорость развития ИИ такова, что вопрос «когда» становится важнее вопроса «если».

Пока ни одна существующая модель экзамен не сдала. Но создатели, кажется, к этому и готовились. Весь смысл теста в том, чтобы он оставался нерешённым достаточно долго — пока прорыв действительно не случится. А когда случится, мы хотя бы будем знать об этом не из маркетинговых пресс-релизов, а из результатов конкретного испытания.


Новое на сайте

Ссылка