Ssylka

Арена для ИИ-боев: от симуляций к реальным сражениям

В статье представлен пайплайн для обучения нейросетевых агентов, сражающихся на арене в физическом симуляторе MuJoCo. Разработанная среда позволяет двум четыреногим агентам, MuJoCo Ant, взаимодействовать друг с другом и с ареной, используя частично включенные коллизии. Обучение агентов происходит с помощью алгоритма Soft Actor-Critic (SAC), реализованного на базе JAX. Это позволяет эффективно использовать GPU для параллельных расчетов.
Арена для ИИ-боев: от симуляций к реальным сражениям
Изображение носит иллюстративный характер

Ключевым элементом является функция награды, определяющая поведение агентов. Она состоит из поощрения за сближение, пинок противника и штрафа за падение с арены. Цель обучения — достичь баланса между агрессивным поведением и осторожностью. Функция валидации используется для оценки прогресса агентов. Она награждает за нахождение на арене и штрафует за падение.

Пайплайн включает в себя гибкие настройки для оптимизации процесса обучения, такие как размер батча, размер буфера, коэффициент обучения, и т. д. Также предусмотрена возможность добавления референсных агентов для ускорения обучения и ведение логов в Weights & Biases или Tensorboard. В процессе обучения агенты сражаются не только с референсными агентами, но и со своими собственными прошлыми версиями для повышения конкурентоспособности.

Хотя эксперименты с гуманоидами Humanoid не удались из-за высокой вычислительной нагрузки, проект продемонстрировал потенциал для дальнейших исследований. Будущие направления развития включают эксперименты с разными функциями награды, непрямое управление агентами и обучение агентов с полностью включенными коллизиями. Кроме того, рассматривается возможность использования предварительно обученных фрагментов сети для ускорения обучения.


Новое на сайте

18247Зачем мозг в фазе быстрого сна стирает детали воспоминаний? 18246Мог ли древний яд стать решающим фактором в эволюции человека? 18245Тайна колодца Мурсы: раны и днк раскрыли судьбу павших солдат 18244Битва за миллиардный сэндвич без корочки 18243Почему ваши расширения для VS Code могут оказаться шпионским по? 18242Как подать заявку FAFSA на 2026-27 учебный год и получить финансовую помощь? 18241Мог ли взлом F5 раскрыть уязвимости нулевого дня в продукте BIG-IP? 18240CVS завершает поглощение активов обанкротившейся сети Rite Aid 18239Nvidia, BlackRock и Microsoft покупают основу для глобального ИИ за $40 миллиардов 18238Действительно ли только род Homo создавал орудия труда? 18237Инженерный триумф: сотрудник Rivian вырастил тыкву-победителя 18236Процент с прибыли: как инвесторы создали новый источник финансирования для... 18235Почему синхронизируемые ключи доступа открывают двери для кибератак на предприятия?