Ssylka

Арена для ИИ-боев: от симуляций к реальным сражениям

В статье представлен пайплайн для обучения нейросетевых агентов, сражающихся на арене в физическом симуляторе MuJoCo. Разработанная среда позволяет двум четыреногим агентам, MuJoCo Ant, взаимодействовать друг с другом и с ареной, используя частично включенные коллизии. Обучение агентов происходит с помощью алгоритма Soft Actor-Critic (SAC), реализованного на базе JAX. Это позволяет эффективно использовать GPU для параллельных расчетов.
Арена для ИИ-боев: от симуляций к реальным сражениям
Изображение носит иллюстративный характер

Ключевым элементом является функция награды, определяющая поведение агентов. Она состоит из поощрения за сближение, пинок противника и штрафа за падение с арены. Цель обучения — достичь баланса между агрессивным поведением и осторожностью. Функция валидации используется для оценки прогресса агентов. Она награждает за нахождение на арене и штрафует за падение.

Пайплайн включает в себя гибкие настройки для оптимизации процесса обучения, такие как размер батча, размер буфера, коэффициент обучения, и т. д. Также предусмотрена возможность добавления референсных агентов для ускорения обучения и ведение логов в Weights & Biases или Tensorboard. В процессе обучения агенты сражаются не только с референсными агентами, но и со своими собственными прошлыми версиями для повышения конкурентоспособности.

Хотя эксперименты с гуманоидами Humanoid не удались из-за высокой вычислительной нагрузки, проект продемонстрировал потенциал для дальнейших исследований. Будущие направления развития включают эксперименты с разными функциями награды, непрямое управление агентами и обучение агентов с полностью включенными коллизиями. Кроме того, рассматривается возможность использования предварительно обученных фрагментов сети для ускорения обучения.


Новое на сайте

18843Как новый беспроводной имплант проецирует «фильмы» прямо в мозг, минуя органы чувств? 18842Стотысячный снимок Марса и новые открытия орбитального разведчика NASA 18841Почему кошки встречают мужчин гораздо громче и активнее, чем женщин? 18840Является ли Passwd ультимативным инструментом безопасности для организаций, работающих... 18839Археологические находки свидетельствуют о мирном сосуществовании зороастризма с... 18838Спецслужбы США и Эстонии нейтрализовали платформу web3adspanels для хищения банковских... 18837Способен ли новый материал M-rGO вытеснить традиционные аккумуляторы благодаря рекордной... 18836Почему более 100 000 серверов n8n оказались под угрозой полного захвата из-за критической... 18835Находка «ребенка из таунга»: открытие, навсегда изменившее представление об эволюции... 18834Визуальные итоги астрономического 2025 года: от межзвездной радуги до марсианских вулканов 18833Зачем кельты спрятали золотые подражания греческим монетам в швейцарском болоте 2300 лет... 18832Как нейробиология и физика переписывают древние философские споры о свободе воли, смысле... 18831Какую катастрофу скрывает уникальное массовое захоронение бронзового века на холме... 18830Сенсационное открытие ставит под сомнение роль Люси в эволюции человека 18829Новые волны атак через пакетные менеджеры npm и NuGet компрометируют WhatsApp и...