Сможет ли ИИ сдать «последний экзамен человечества»?

Где-то на стыке амбиций и тревоги родился тест, который его авторы без ложной скромности назвали «Последний экзамен человечества» (Humanity's Last Exam). Название звучит как заголовок фантастического фильма, но речь о вполне реальном проекте — новой системе оценки, созданной специально для того, чтобы проверить пределы возможностей самых продвинутых моделей искусственного интеллекта.
Сможет ли ИИ сдать «последний экзамен человечества»?
Изображение носит иллюстративный характер

Задумка у экзамена простая, хотя и немного пугающая. Нужно понять, насколько близко современные ИИ-модели подобрались к уровню человеческого знания. Или, может быть, уже перешагнули его. Создатели теста утверждают, что это «самый сложный экзамен в мире». Не для людей — для машин. Хотя, если честно, после знакомства с описанием теста возникает подозрение, что и большинство людей его бы не осилили.

Стандартные бенчмарки, которыми индустрия пользовалась последние годы, перестали работать как индикаторы. Лучшие языковые модели уже давно щёлкают их как орешки. Сдают юридические экзамены, решают олимпиадные задачи по математике, пишут код на уровне опытного разработчика. Старые тесты попросту не успевают за прогрессом. Нужен был новый барьер — такой, который хотя бы на какое-то время окажется непреодолимым.

Humanity's Last Exam претендует именно на эту роль. Он спроектирован так, чтобы покрыть весь спектр человеческих знаний — от узкоспециальных научных дисциплин до областей, где требуется нетривиальное мышление и способность к обобщению. Идея не в том, чтобы проверить, умеет ли ИИ гуглить. Идея в том, чтобы выяснить, способен ли он думать.

И вот тут начинается самое интересное. Если какая-то модель когда-нибудь сдаст этот экзамен на отлично, это может стать первым реальным сигналом приближения к так называемому AGI — искусственному общему интеллекту. То есть к системе, которая обладает когнитивными способностями на уровне человека (или выше) не в одной узкой области, а в принципе. Везде сразу.

AGI пока остаётся скорее теоретическим понятием. Никто точно не знает, как он будет выглядеть и по каким критериям его фиксировать. Собственно, Humanity's Last Exam — это попытка хотя бы отчасти формализировать этот вопрос. Дать какую-то измеримую планку вместо бесконечных споров в твиттере.

Правда, скептики справедливо замечают: а что, если экзамен проверяет не интеллект как таковой, а лишь объём запомненной информации и способность её комбинировать? Человеческий разум — штука хитрая, он включает интуицию, эмоциональный контекст, умение действовать в условиях полной неопределённости. Можно ли всё это упаковать в формат теста? Вопрос открытый.

Тем не менее сам факт появления такого экзамена говорит о многом. Ещё пять лет назад подобный проект выглядел бы преждевременным. Сегодня, когда каждый квартал выходит очередная модель, ломающая прежние рекорды, идея финального рубежа перестала казаться фантастикой. Скорость развития ИИ такова, что вопрос «когда» становится важнее вопроса «если».

Пока ни одна существующая модель экзамен не сдала. Но создатели, кажется, к этому и готовились. Весь смысл теста в том, чтобы он оставался нерешённым достаточно долго — пока прорыв действительно не случится. А когда случится, мы хотя бы будем знать об этом не из маркетинговых пресс-релизов, а из результатов конкретного испытания.


Новое на сайте

19817В Луксоре нашли стелу с римским императором в образе фараона 19816Экипаж Artemis II о моменте, когда земля исчезла за луной 19815Почему луна выглядит по-разному в разных точках земли? 19814Adobe экстренно закрыла опасную дыру в Acrobat Reader, которую хакеры использовали с... 19813Метеорный поток, рождённый из умирающего астероида 19812Когда робот пишет за тебя прощальную смс 19811Что общего у лунной миссии, толстого попугая, загадочной плащаницы и лекарства от диабета? 19810Какие снимки Artemis II уже стали иконами лунной программы? 19809Кто на самом деле хочет сладкого — вы или ваши бактерии? 19808Как рекламные данные 500 миллионов телефонов оказались в руках спецслужб? 19807Экипаж Artemis II вернулся на землю после десяти дней в космосе 19806Зелёная и коричневая луна: почему геологи Artemis II уже не могут усидеть на месте 19805Эксперты уверены в теплозащитном щите Artemis II, несмотря на проблемы предшественника 19804Выжить внутри торнадо: каково это — когда тебя засасывает в воронку 19803Аляскинские косатки-охотники на млекопитающих замечены у берегов Сиэтла
Ссылка