Сможет ли ИИ сдать «последний экзамен человечества»?

Где-то на стыке амбиций и тревоги родился тест, который его авторы без ложной скромности назвали «Последний экзамен человечества» (Humanity's Last Exam). Название звучит как заголовок фантастического фильма, но речь о вполне реальном проекте — новой системе оценки, созданной специально для того, чтобы проверить пределы возможностей самых продвинутых моделей искусственного интеллекта.
Сможет ли ИИ сдать «последний экзамен человечества»?
Изображение носит иллюстративный характер

Задумка у экзамена простая, хотя и немного пугающая. Нужно понять, насколько близко современные ИИ-модели подобрались к уровню человеческого знания. Или, может быть, уже перешагнули его. Создатели теста утверждают, что это «самый сложный экзамен в мире». Не для людей — для машин. Хотя, если честно, после знакомства с описанием теста возникает подозрение, что и большинство людей его бы не осилили.

Стандартные бенчмарки, которыми индустрия пользовалась последние годы, перестали работать как индикаторы. Лучшие языковые модели уже давно щёлкают их как орешки. Сдают юридические экзамены, решают олимпиадные задачи по математике, пишут код на уровне опытного разработчика. Старые тесты попросту не успевают за прогрессом. Нужен был новый барьер — такой, который хотя бы на какое-то время окажется непреодолимым.

Humanity's Last Exam претендует именно на эту роль. Он спроектирован так, чтобы покрыть весь спектр человеческих знаний — от узкоспециальных научных дисциплин до областей, где требуется нетривиальное мышление и способность к обобщению. Идея не в том, чтобы проверить, умеет ли ИИ гуглить. Идея в том, чтобы выяснить, способен ли он думать.

И вот тут начинается самое интересное. Если какая-то модель когда-нибудь сдаст этот экзамен на отлично, это может стать первым реальным сигналом приближения к так называемому AGI — искусственному общему интеллекту. То есть к системе, которая обладает когнитивными способностями на уровне человека (или выше) не в одной узкой области, а в принципе. Везде сразу.

AGI пока остаётся скорее теоретическим понятием. Никто точно не знает, как он будет выглядеть и по каким критериям его фиксировать. Собственно, Humanity's Last Exam — это попытка хотя бы отчасти формализировать этот вопрос. Дать какую-то измеримую планку вместо бесконечных споров в твиттере.

Правда, скептики справедливо замечают: а что, если экзамен проверяет не интеллект как таковой, а лишь объём запомненной информации и способность её комбинировать? Человеческий разум — штука хитрая, он включает интуицию, эмоциональный контекст, умение действовать в условиях полной неопределённости. Можно ли всё это упаковать в формат теста? Вопрос открытый.

Тем не менее сам факт появления такого экзамена говорит о многом. Ещё пять лет назад подобный проект выглядел бы преждевременным. Сегодня, когда каждый квартал выходит очередная модель, ломающая прежние рекорды, идея финального рубежа перестала казаться фантастикой. Скорость развития ИИ такова, что вопрос «когда» становится важнее вопроса «если».

Пока ни одна существующая модель экзамен не сдала. Но создатели, кажется, к этому и готовились. Весь смысл теста в том, чтобы он оставался нерешённым достаточно долго — пока прорыв действительно не случится. А когда случится, мы хотя бы будем знать об этом не из маркетинговых пресс-релизов, а из результатов конкретного испытания.


Новое на сайте

19905Зачем древние египтяне строили круглые храмы? 19904Планета, на которой вы живёте, но почти не знаете 19903Может ли анализ крови остановить рак печени ещё до его начала? 19902Кто такие GopherWhisper и зачем им монгольские чиновники? 19901«Вояджер-1» готовится к манёвру «большой взрыв»: NASA отключает приборы ради выживания 19900Почему вокруг Чатемских островов появилось светящееся кольцо из планктона? 19899Как взлом Vercel начался с Roblox-скрипта на чужом компьютере 19898Кто лежит в шотландских гробницах каменного века? 19897Почему две англосаксонские сестра и брат были похоронены в объятиях 1400 лет назад? 19896Гормон GDF15: найдена причина мучительного токсикоза у беременных 19895Почему хакеры Harvester прячут вредоносный код в папке «Zomato Pizza»? 19894Робот-гуманоид Panther от UniX AI претендует на место в каждом доме 19893Artemis застряла на земле: NASA не может лететь на луну без новых скафандров 19892Почему 20 000 промышленных устройств по всему миру оказались под угрозой взлома? 19891Зачем египетская мумия «проглотила» «Илиаду»?
Ссылка