Арена для ИИ-боев: от симуляций к реальным сражениям

В статье представлен пайплайн для обучения нейросетевых агентов, сражающихся на арене в физическом симуляторе MuJoCo. Разработанная среда позволяет двум четыреногим агентам, MuJoCo Ant, взаимодействовать друг с другом и с ареной, используя частично включенные коллизии. Обучение агентов происходит с помощью алгоритма Soft Actor-Critic (SAC), реализованного на базе JAX. Это позволяет эффективно использовать GPU для параллельных расчетов.
Арена для ИИ-боев: от симуляций к реальным сражениям
Изображение носит иллюстративный характер

Ключевым элементом является функция награды, определяющая поведение агентов. Она состоит из поощрения за сближение, пинок противника и штрафа за падение с арены. Цель обучения — достичь баланса между агрессивным поведением и осторожностью. Функция валидации используется для оценки прогресса агентов. Она награждает за нахождение на арене и штрафует за падение.

Пайплайн включает в себя гибкие настройки для оптимизации процесса обучения, такие как размер батча, размер буфера, коэффициент обучения, и т. д. Также предусмотрена возможность добавления референсных агентов для ускорения обучения и ведение логов в Weights & Biases или Tensorboard. В процессе обучения агенты сражаются не только с референсными агентами, но и со своими собственными прошлыми версиями для повышения конкурентоспособности.

Хотя эксперименты с гуманоидами Humanoid не удались из-за высокой вычислительной нагрузки, проект продемонстрировал потенциал для дальнейших исследований. Будущие направления развития включают эксперименты с разными функциями награды, непрямое управление агентами и обучение агентов с полностью включенными коллизиями. Кроме того, рассматривается возможность использования предварительно обученных фрагментов сети для ускорения обучения.


Новое на сайте

19201Как Google разрушил глобальную шпионскую сеть UNC2814, охватившую правительства 70 стран... 19200Как простое открытие репозитория в Claude Code позволяет хакерам получить полный контроль... 19199Зачем киберсиндикат SLH платит женщинам до 1000 долларов за один телефонный звонок в... 19198Устранение слепых зон SOC: переход к доказательной сортировке угроз для защиты бизнеса 19197Скрытые бэкдоры в цепочках поставок по: атаки через вредоносные пакеты NuGet и npm 19196Как абсолютная самоотдача, отказ от эго и физиологическое переосмысление тревоги помогают... 19195Отказ от стратегии гладиаторов как главный драйвер экспоненциального роста корпораций 19194Цена ручного управления: почему отказ от автоматизации данных разрушает национальную... 19193Критическая угроза полного контроля: SolarWinds экстренно закрыла четыре уязвимости в... 19192Почему внедрение команд операционной системы в FileZen заставило CISA требовать... 19191Могут ли безобидные текстовые промпты для нейросетей стать самым разрушительным... 19190Как 9 древних правил Конфуция помогают обрести эмоциональный интеллект и победить стресс... 19189Почему экономика, а не высокие идеалы, стала истинным двигателем сопротивления в... 19188Критическая уязвимость в решениях BeyondTrust спровоцировала глобальную волну кражи... 19187Эволюция угроз: атака на цепочку поставок ИИ-ассистента Cline CLI через уязвимость...
Ссылка