Ssylka

Как Google научил роботов рассуждать и адаптироваться к реальному миру?

Компания Google DeepMind представила две новые модели искусственного интеллекта, Gemini Robotics 1.5 и Gemini Robotics-ER 1.5, разработанные командой Gemini Robotics Team. Эти модели наделяют роботов способностью понимать окружающий мир, рассуждать и выполнять сложные, многоэтапные задачи, что является значительным шагом на пути к созданию универсальных роботов-помощников.
Как Google научил роботов рассуждать и адаптироваться к реальному миру?
Изображение носит иллюстративный характер

Система работает по принципу разделения обязанностей. Модель Gemini Robotics-ER 1.5, основанная на технологии зрения и языка (VLM), выступает в роли «мозга». Она анализирует пространство, обрабатывает команды на естественном языке, использует логические рассуждения и внешние инструменты, такие как Google Поиск, для формирования плана действий. Затем она передает инструкции «исполнителю».

В роли «исполнителя» выступает модель Gemini Robotics 1.5, которая относится к классу моделей зрения, языка и действия (VLA). Она получает инструкции от «мозга», соотносит их с визуальной картиной окружения, формирует последовательность физических действий, выполняет их и предоставляет обратную связь о своем процессе и логике.

Старший научный сотрудник DeepMind Цзе Тан (Jie Tan) так описывает этот прорыв: «Мы даем ему возможность думать. Он может воспринимать окружающую среду, думать шаг за шагом, а затем выполнять эту многоэтапную задачу». Это фундаментальное отличие от старых методов, которые требовали программирования роботов для узкоспециализированных ситуаций.

Эволюцию возможностей демонстрирует тест с фруктами. Если первая версия Gemini Robotics, представленная ранее в этом году, могла выполнить простую команду «положи банан в корзину», то новые модели справились с гораздо более сложной задачей. Робот Aloha 2 смог самостоятельно рассортировать банан, яблоко и лайм по трем тарелкам соответствующих цветов. В процессе выполнения задачи робот также объяснял свои действия на естественном языке, демонстрируя понимание логики процесса.

Одной из ключевых способностей стала возможность использовать внешние инструменты для решения непредвиденных проблем. В ходе эксперимента исследователи попросили робота Aloha рассортировать мусор по контейнерам для компоста, переработки и общих отходов в соответствии с местными правилами. Робот определил свое местоположение как Сан-Франциско, воспользовался интернетом для поиска городских правил утилизации и безошибочно выполнил сортировку.

Новые модели также продемонстрировали способность адаптироваться к изменяющимся условиям. Когда человекоподобного робота Apollo попросили рассортировать одежду по цвету на белую и цветную, исследователи в процессе работы переместили вещи и контейнеры. Робот успешно переоценил новую обстановку, скорректировал свой план действий и правильно завершил задачу.

Главное технологическое достижение заключается в переходе от специализированных знаний к обобщенному мышлению. Модели обладают широким пониманием физического пространства и взаимодействий, что позволяет им разбивать любую крупную цель на последовательность небольших, выполнимых шагов. Это делает их универсальными и не привязанными к конкретной задаче.

Важным следствием этого подхода является кроссплатформенное обучение. Знания и навыки, приобретенные одним типом робота, например, Aloha 2, могут быть немедленно применены на любой другой платформе, будь то гуманоид Apollo или манипулятор Franka. Это создает единую базу знаний, ускоряющую развитие всей роботизированной экосистемы.


Новое на сайте

18971Способны ли «модели мира» радикально изменить когнитивные привычки поколения Z и положить... 18970Первая целенаправленная атака на экосистему n8n через поддельные модули npm 18969Станет ли недавно открытая C/2025 R3 (PanSTARRS) новой «великой кометой 2026 года»? 18968Почему мужские икры веками считались главным показателем цивилизованности и мужской силы? 18967Терракотовая богиня из Тумба-Маджари: уникальный символ культа великой матери возрастом... 18966Эволюция глобальной теневой экономики и индустриализация кибермошенничества 18965Раскопки кургана Караагач указывают на неожиданную децентрализацию власти в древней... 18964Хаббл запечатлел крупнейший в истории наблюдений хаотичный протопланетный диск 18963Почему открытые телескопом «Джеймс Уэбб» «галактики-утконосы» ломают представления об... 18962Революционные космические открытия, пересмотр колыбели человечества и радикальные реформы... 18961Уникальный костяной стилус V века до нашей эры с изображением Диониса найден на Сицилии 18960Скрытый механизм защиты желудка от кислотного самопереваривания 18959Масштабная ликвидация испанской ячейки нигерийского преступного синдиката Black Axe 18958Китайские хакеры реализовали полный захват гипервизора VMware ESXi через уязвимости... 18957Анализ ископаемых зубов из Дманиси опровергает теорию о первенстве Homo erectus в...