Ssylka

Загадка Перевёрнутой тарелки: почему искусственный интеллект теряет овощи?

Современные большие языковые модели (LLM), впечатляющие своими способностями к генерации текста, всё ещё сталкиваются с трудностями в решении простых задач, требующих базового пространственного мышления. Эксперимент с перевёрнутой тарелкой, на которой лежат овощи, наглядно демонстрирует эту проблему. Человек, представив ситуацию, сразу поймет, что овощи упадут, но LLM часто выбирают неверные ответы, сосредотачиваясь на второстепенных деталях, например, на вопросе о том, является ли помидор овощем или фруктом.
Загадка Перевёрнутой тарелки: почему искусственный интеллект теряет овощи?
Изображение носит иллюстративный характер

Идея в том, что LLM, по сути, моделируют язык, а не реальность. Они стремятся предсказать следующее слово в предложении, а не проанализировать причинно-следственные связи, лежащие в основе ситуации. Это приводит к тому, что в простых ситуациях, где требуется не только знание языка, но и понимание физических законов или социальных норм, они терпят неудачу. Для LLM не существует понятия «важности» той или иной детали, кроме как ее влияние на следующее слово.

Проект "Simple Bench" предлагает набор подобных простых вопросов, которые могут легко решить большинство людей, но которые ставят LLM в тупик. Подобные тесты помогают выявить фундаментальные ограничения моделей, не сводящиеся к простому заучиванию ответов или проблемам токенизации. В основе лежит неспособность LLM моделировать ситуации в реальном мире и делать выводы на основе этой симуляции.

Успех LLM в некоторых областях, таких как сдача экзаменов, обусловлен тем, что знания и факты часто встречаются в языковой форме, которую модели хорошо умеют обрабатывать. Однако, как только модель выходит за пределы этого «комфортного» языкового поля и сталкивается с необходимостью анализировать ситуацию, опираясь на понимание реальности, она становится уязвимой. Прогресс в области искусственного интеллекта, возможно, потребует выхода за рамки простого масштабирования языковых моделей.


Новое на сайте

18667Декабрьское обновление безопасности Android устраняет 107 уязвимостей и две угрозы... 18666Почему мы отрицаем реальность, когда искусственный интеллект уже лишил нас когнитивного... 18665Химический след Тейи раскрыл тайну происхождения луны в ранней солнечной системе 18664Раскрывает ли извергающаяся межзвездная комета 3I/ATLAS химические тайны древней... 18663Масштабная кампания ShadyPanda заразила миллионы браузеров через официальные обновления 18662Как помидорные бои и персонажи Pixar помогают лидерам превратить корпоративную культуру 18661Как астероид 2024 YR4 стал первой исторической проверкой системы планетарной защиты и... 18660Агентные ИИ-браузеры как троянский конь новой эры кибербезопасности 18659Многовековая история изучения приливов от античных гипотез до синтеза Исаака Ньютона 18658Как выглядела защита от солнца римских легионеров в Египте 1600 лет назад? 18657Хакеры ToddyCat обновили арсенал для тотального взлома Outlook и Microsoft 365 18656Асимметрия безопасности: почему многомиллионные вложения в инструменты детекции не... 18655Как безопасно использовать репозитории Chocolatey и Winget, не подвергая инфраструктуру... 18654Масштабная утечка конфиденциальных данных через популярные онлайн-форматеры кода 18653Как расширение списка жертв взлома Gainsight связано с запуском вымогателя ShinySp1d3r