Компания Google DeepMind представила две новые модели искусственного интеллекта, Gemini Robotics 1.5 и Gemini Robotics-ER 1.5, разработанные командой Gemini Robotics Team. Эти модели наделяют роботов способностью понимать окружающий мир, рассуждать и выполнять сложные, многоэтапные задачи, что является значительным шагом на пути к созданию универсальных роботов-помощников.

Система работает по принципу разделения обязанностей. Модель Gemini Robotics-ER 1.5, основанная на технологии зрения и языка (VLM), выступает в роли «мозга». Она анализирует пространство, обрабатывает команды на естественном языке, использует логические рассуждения и внешние инструменты, такие как Google Поиск, для формирования плана действий. Затем она передает инструкции «исполнителю».
В роли «исполнителя» выступает модель Gemini Robotics 1.5, которая относится к классу моделей зрения, языка и действия (VLA). Она получает инструкции от «мозга», соотносит их с визуальной картиной окружения, формирует последовательность физических действий, выполняет их и предоставляет обратную связь о своем процессе и логике.
Старший научный сотрудник DeepMind Цзе Тан (Jie Tan) так описывает этот прорыв: «Мы даем ему возможность думать. Он может воспринимать окружающую среду, думать шаг за шагом, а затем выполнять эту многоэтапную задачу». Это фундаментальное отличие от старых методов, которые требовали программирования роботов для узкоспециализированных ситуаций.
Эволюцию возможностей демонстрирует тест с фруктами. Если первая версия Gemini Robotics, представленная ранее в этом году, могла выполнить простую команду «положи банан в корзину», то новые модели справились с гораздо более сложной задачей. Робот Aloha 2 смог самостоятельно рассортировать банан, яблоко и лайм по трем тарелкам соответствующих цветов. В процессе выполнения задачи робот также объяснял свои действия на естественном языке, демонстрируя понимание логики процесса.
Одной из ключевых способностей стала возможность использовать внешние инструменты для решения непредвиденных проблем. В ходе эксперимента исследователи попросили робота Aloha рассортировать мусор по контейнерам для компоста, переработки и общих отходов в соответствии с местными правилами. Робот определил свое местоположение как Сан-Франциско, воспользовался интернетом для поиска городских правил утилизации и безошибочно выполнил сортировку.
Новые модели также продемонстрировали способность адаптироваться к изменяющимся условиям. Когда человекоподобного робота Apollo попросили рассортировать одежду по цвету на белую и цветную, исследователи в процессе работы переместили вещи и контейнеры. Робот успешно переоценил новую обстановку, скорректировал свой план действий и правильно завершил задачу.
Главное технологическое достижение заключается в переходе от специализированных знаний к обобщенному мышлению. Модели обладают широким пониманием физического пространства и взаимодействий, что позволяет им разбивать любую крупную цель на последовательность небольших, выполнимых шагов. Это делает их универсальными и не привязанными к конкретной задаче.
Важным следствием этого подхода является кроссплатформенное обучение. Знания и навыки, приобретенные одним типом робота, например, Aloha 2, могут быть немедленно применены на любой другой платформе, будь то гуманоид Apollo или манипулятор Franka. Это создает единую базу знаний, ускоряющую развитие всей роботизированной экосистемы.

Изображение носит иллюстративный характер
Система работает по принципу разделения обязанностей. Модель Gemini Robotics-ER 1.5, основанная на технологии зрения и языка (VLM), выступает в роли «мозга». Она анализирует пространство, обрабатывает команды на естественном языке, использует логические рассуждения и внешние инструменты, такие как Google Поиск, для формирования плана действий. Затем она передает инструкции «исполнителю».
В роли «исполнителя» выступает модель Gemini Robotics 1.5, которая относится к классу моделей зрения, языка и действия (VLA). Она получает инструкции от «мозга», соотносит их с визуальной картиной окружения, формирует последовательность физических действий, выполняет их и предоставляет обратную связь о своем процессе и логике.
Старший научный сотрудник DeepMind Цзе Тан (Jie Tan) так описывает этот прорыв: «Мы даем ему возможность думать. Он может воспринимать окружающую среду, думать шаг за шагом, а затем выполнять эту многоэтапную задачу». Это фундаментальное отличие от старых методов, которые требовали программирования роботов для узкоспециализированных ситуаций.
Эволюцию возможностей демонстрирует тест с фруктами. Если первая версия Gemini Robotics, представленная ранее в этом году, могла выполнить простую команду «положи банан в корзину», то новые модели справились с гораздо более сложной задачей. Робот Aloha 2 смог самостоятельно рассортировать банан, яблоко и лайм по трем тарелкам соответствующих цветов. В процессе выполнения задачи робот также объяснял свои действия на естественном языке, демонстрируя понимание логики процесса.
Одной из ключевых способностей стала возможность использовать внешние инструменты для решения непредвиденных проблем. В ходе эксперимента исследователи попросили робота Aloha рассортировать мусор по контейнерам для компоста, переработки и общих отходов в соответствии с местными правилами. Робот определил свое местоположение как Сан-Франциско, воспользовался интернетом для поиска городских правил утилизации и безошибочно выполнил сортировку.
Новые модели также продемонстрировали способность адаптироваться к изменяющимся условиям. Когда человекоподобного робота Apollo попросили рассортировать одежду по цвету на белую и цветную, исследователи в процессе работы переместили вещи и контейнеры. Робот успешно переоценил новую обстановку, скорректировал свой план действий и правильно завершил задачу.
Главное технологическое достижение заключается в переходе от специализированных знаний к обобщенному мышлению. Модели обладают широким пониманием физического пространства и взаимодействий, что позволяет им разбивать любую крупную цель на последовательность небольших, выполнимых шагов. Это делает их универсальными и не привязанными к конкретной задаче.
Важным следствием этого подхода является кроссплатформенное обучение. Знания и навыки, приобретенные одним типом робота, например, Aloha 2, могут быть немедленно применены на любой другой платформе, будь то гуманоид Apollo или манипулятор Franka. Это создает единую базу знаний, ускоряющую развитие всей роботизированной экосистемы.