Почему большие языковые модели так и не научились думать

Фраза «так не строят цифровой разум» звучит почти обидно, если адресовать её индустрии, которая привлекла сотни миллиардов долларов инвестиций. Но именно к такому выводу подталкивает новый анализ возможностей больших языковых моделей — LLM. Речь не о мелких багах и не о галлюцинациях, к которым все уже привыкли. Речь о куда более серьёзной проблеме: эти модели, похоже, принципиально не способны рассуждать.
Почему большие языковые модели так и не научились думать

Почему большие языковые модели так и не научились думать

Изображение носит иллюстративный характер

Когда мы говорим о «рассуждении» в контексте ИИ, имеется в виду нечто конкретное. Человек умеет выстраивать цепочки логических связей, отсекать несущественное, строить гипотезы, проверять их и отбрасывать неработающие. LLM этого не делают. Они генерируют текст, статистически правдоподобный на основе обучающих данных. Разница колоссальная, хотя на выходе иногда выглядит похоже.
Проблема в том, что провалы в рассуждениях — не побочный эффект, который можно исправить патчем. Это следствие самой архитектуры. Модель предсказывает следующее слово, опираясь на вероятности. Она не «понимает» задачу, не строит её внутреннюю модель. Она находит паттерн в данных. Когда паттерн подходит — результат впечатляет. Когда нет — модель уверенно несёт чушь, потому что у неё нет механизма отличить верное рассуждение от неверного.
Новый анализ указывает на то, что LLM, возможно, подходят к своему технологическому потолку. Увеличение параметров, данных для обучения, вычислительных мощностей — всё это даёт убывающую отдачу. Модели становятся чуть лучше в одних задачах и непредсказуемо проваливаются в других. Масштабирование, которое несколько лет считалось универсальным рецептом, перестаёт работать как раньше.
Сторонники LLM часто возражают: мол, модели уже сдают юридические экзамены, пишут код, переводят тексты. Всё так. Но юридический экзамен — это задача на распознавание образцов в хорошо документированной области. Попросите ту же модель разобраться в нестандартной ситуации, где нужно применить принцип к новым обстоятельствам, и результаты резко просядут. Именно здесь и проявляется разница между имитацией рассуждения и собственно рассуждением.
Концепция «цифрового разума» предполагает, что машина способна мыслить на уровне человека. Что она может не просто воспроизводить шаблоны, а порождать новое знание, адаптироваться к незнакомым условиям, осознавать ограничения собственной компетенции. LLM ничего из этого не умеют. Они не знают, чего они не знают. И у них нет внутренней мотивации это выяснять.
Критики текущего подхода говорят довольно прямо: если вы хотите построить цифровой разум, предсказание следующего токена — неправильный фундамент. Это всё равно что пытаться научить кого-то физике, заставляя заучивать ответы в конце учебника без объяснения формул. На знакомых задачках результат будет приличный. На новых — катастрофа.
Это не означает, что LLM бесполезны. Они прекрасно справляются с задачами, где нужна компиляция, суммаризация, генерация текста по шаблону. Но называть это «интеллектом» — натяжка. А вкладывать ресурсы в бесконечное масштабирование архитектуры, которая упирается в свои фундаментальные ограничения, — стратегия как минимум спорная.
Вопрос в том, что дальше. Может, нужна совершенно другая архитектура. Может, гибрид. Может, какой-то подход, о котором пока никто не думал. Одно ясно: простое наращивание мощности LLM к человеческому уровню интеллекта не приведёт. И чем раньше индустрия это признает, тем меньше денег и времени уйдёт на тупиковую ветку.

Почему большие языковые модели так и не научились думать

Новое на сайте