Ssylka

Загадка Перевёрнутой тарелки: почему искусственный интеллект теряет овощи?

Современные большие языковые модели (LLM), впечатляющие своими способностями к генерации текста, всё ещё сталкиваются с трудностями в решении простых задач, требующих базового пространственного мышления. Эксперимент с перевёрнутой тарелкой, на которой лежат овощи, наглядно демонстрирует эту проблему. Человек, представив ситуацию, сразу поймет, что овощи упадут, но LLM часто выбирают неверные ответы, сосредотачиваясь на второстепенных деталях, например, на вопросе о том, является ли помидор овощем или фруктом.
Загадка Перевёрнутой тарелки: почему искусственный интеллект теряет овощи?
Изображение носит иллюстративный характер

Идея в том, что LLM, по сути, моделируют язык, а не реальность. Они стремятся предсказать следующее слово в предложении, а не проанализировать причинно-следственные связи, лежащие в основе ситуации. Это приводит к тому, что в простых ситуациях, где требуется не только знание языка, но и понимание физических законов или социальных норм, они терпят неудачу. Для LLM не существует понятия «важности» той или иной детали, кроме как ее влияние на следующее слово.

Проект "Simple Bench" предлагает набор подобных простых вопросов, которые могут легко решить большинство людей, но которые ставят LLM в тупик. Подобные тесты помогают выявить фундаментальные ограничения моделей, не сводящиеся к простому заучиванию ответов или проблемам токенизации. В основе лежит неспособность LLM моделировать ситуации в реальном мире и делать выводы на основе этой симуляции.

Успех LLM в некоторых областях, таких как сдача экзаменов, обусловлен тем, что знания и факты часто встречаются в языковой форме, которую модели хорошо умеют обрабатывать. Однако, как только модель выходит за пределы этого «комфортного» языкового поля и сталкивается с необходимостью анализировать ситуацию, опираясь на понимание реальности, она становится уязвимой. Прогресс в области искусственного интеллекта, возможно, потребует выхода за рамки простого масштабирования языковых моделей.


Новое на сайте

16934Уязвимость нулевого дня в SonicWall VPN стала оружием группировки Akira 16933Может ли государственный фонд единолично решать судьбу американской науки? 16932Способна ли филантропия блогеров решить мировой водный кризис? 16931Взлом через промпт: как AI-редактор Cursor превращали в оружие 16930Мог ли древний кризис заставить людей хоронить мертвых в печах с собаками? 16929Какие наушники Bose выбрать на распродаже: для полной изоляции или контроля над... 16928Может ли искусство напрямую очищать экосистемы от вредителей? 16927Вирусное наследие в геноме человека оказалось ключевым регулятором генов 16926Рекордные оазисы жизни обнаружены в бездне океанских траншей 16925Крах прогнозов UnitedHealth на фоне растущих издержек и трагедий 16924Формула ясного ума: доказанный способ замедлить когнитивное старение 16923Действительно ли ощущения тепла и прохлады идут в мозг разными путями? 16922Гражданские права как инструмент холодной войны 16921Премиальное белье Duluth Trading Co. со скидкой более 50% 16920Сделает ли запрет на пищевые красители школьные обеды по-настояшему здоровыми?