Ssylka

Как Google научил роботов рассуждать и адаптироваться к реальному миру?

Компания Google DeepMind представила две новые модели искусственного интеллекта, Gemini Robotics 1.5 и Gemini Robotics-ER 1.5, разработанные командой Gemini Robotics Team. Эти модели наделяют роботов способностью понимать окружающий мир, рассуждать и выполнять сложные, многоэтапные задачи, что является значительным шагом на пути к созданию универсальных роботов-помощников.
Как Google научил роботов рассуждать и адаптироваться к реальному миру?
Изображение носит иллюстративный характер

Система работает по принципу разделения обязанностей. Модель Gemini Robotics-ER 1.5, основанная на технологии зрения и языка (VLM), выступает в роли «мозга». Она анализирует пространство, обрабатывает команды на естественном языке, использует логические рассуждения и внешние инструменты, такие как Google Поиск, для формирования плана действий. Затем она передает инструкции «исполнителю».

В роли «исполнителя» выступает модель Gemini Robotics 1.5, которая относится к классу моделей зрения, языка и действия (VLA). Она получает инструкции от «мозга», соотносит их с визуальной картиной окружения, формирует последовательность физических действий, выполняет их и предоставляет обратную связь о своем процессе и логике.

Старший научный сотрудник DeepMind Цзе Тан (Jie Tan) так описывает этот прорыв: «Мы даем ему возможность думать. Он может воспринимать окружающую среду, думать шаг за шагом, а затем выполнять эту многоэтапную задачу». Это фундаментальное отличие от старых методов, которые требовали программирования роботов для узкоспециализированных ситуаций.

Эволюцию возможностей демонстрирует тест с фруктами. Если первая версия Gemini Robotics, представленная ранее в этом году, могла выполнить простую команду «положи банан в корзину», то новые модели справились с гораздо более сложной задачей. Робот Aloha 2 смог самостоятельно рассортировать банан, яблоко и лайм по трем тарелкам соответствующих цветов. В процессе выполнения задачи робот также объяснял свои действия на естественном языке, демонстрируя понимание логики процесса.

Одной из ключевых способностей стала возможность использовать внешние инструменты для решения непредвиденных проблем. В ходе эксперимента исследователи попросили робота Aloha рассортировать мусор по контейнерам для компоста, переработки и общих отходов в соответствии с местными правилами. Робот определил свое местоположение как Сан-Франциско, воспользовался интернетом для поиска городских правил утилизации и безошибочно выполнил сортировку.

Новые модели также продемонстрировали способность адаптироваться к изменяющимся условиям. Когда человекоподобного робота Apollo попросили рассортировать одежду по цвету на белую и цветную, исследователи в процессе работы переместили вещи и контейнеры. Робот успешно переоценил новую обстановку, скорректировал свой план действий и правильно завершил задачу.

Главное технологическое достижение заключается в переходе от специализированных знаний к обобщенному мышлению. Модели обладают широким пониманием физического пространства и взаимодействий, что позволяет им разбивать любую крупную цель на последовательность небольших, выполнимых шагов. Это делает их универсальными и не привязанными к конкретной задаче.

Важным следствием этого подхода является кроссплатформенное обучение. Знания и навыки, приобретенные одним типом робота, например, Aloha 2, могут быть немедленно применены на любой другой платформе, будь то гуманоид Apollo или манипулятор Franka. Это создает единую базу знаний, ускоряющую развитие всей роботизированной экосистемы.


Новое на сайте

18191Почему меньший урожай кукурузы оказался питательнее для выживания? 18190Космическая завеса: как «Джеймс Уэбб» раскрыл тайну исчезающих звезд-гигантов 18189Ледяной цунами на реке Тахини: двойная роль катастрофы 18188Можно ли напечатать кукурузный лабиринт, как на струйном принтере? 18187Какие продукты и добавки эффективнее общей диеты с высоким содержанием клетчатки? 18186Почему римляне напоминали о смерти во время пира? 18185Почему Microsoft заблокировала простой доступ к режиму Internet Explorer в Edge? 18184Могли ли металлические вулканы создать бесценную поверхность астероида психея? 18183Как банковский троян Astaroth использует GitHub, чтобы стать неуязвимым? 18182Мог ли провал Колумба спасти Америку от европейской колонизации? 18181Критическая уязвимость в Oracle E-Business Suite угрожает конфиденциальным данным 18180Вечная сила монохрома: победители Exposure One Awards 2025 18179ДНК-анализ гекконов Атакамы раскрыл комплекс скрытых видов 18178Как лагерь для военнопленных подарил миру пилатес 18177Как один снимок галактики рассказал о звездных поколениях и незваном госте?