Управление железнодорожным движением в реальном времени – сложная логистическая задача, требующая оперативного перепланирования расписания при возникновении задержек и сбоев. Классические методы комбинаторной оптимизации могут быть заменены современными подходами машинного обучения, в частности, обучением с подкреплением (RL).
Метод Q-learning позволяет агенту (системе управления) обучаться взаимодействию с железнодорожной средой без необходимости построения сложной математической модели. Агент принимает решения на основе анализа текущей ситуации (состояния среды) и выбирает оптимальные действия, минимизирующие общие задержки.
Моделирование железнодорожной среды включает в себя представление станций и путей как ресурсов с атрибутами доступности. События (прибытие/отправление поездов) откладываются или реализуются немедленно, при этом система оценивает последствия каждого действия и корректирует свою стратегию. Функция вознаграждения стимулирует своевременное выполнение событий и наказывает за задержки, способствуя тем самым оптимизации расписания.
Состояние среды определяется текущим событием, задержками, уровнем загруженности ресурсов и информацией о следующих ресурсах по маршруту поезда. Эксперименты показали, что применение RL позволяет находить эффективные решения по перепланированию в рамках ограниченного времени обучения.
Изображение носит иллюстративный характер
Метод Q-learning позволяет агенту (системе управления) обучаться взаимодействию с железнодорожной средой без необходимости построения сложной математической модели. Агент принимает решения на основе анализа текущей ситуации (состояния среды) и выбирает оптимальные действия, минимизирующие общие задержки.
Моделирование железнодорожной среды включает в себя представление станций и путей как ресурсов с атрибутами доступности. События (прибытие/отправление поездов) откладываются или реализуются немедленно, при этом система оценивает последствия каждого действия и корректирует свою стратегию. Функция вознаграждения стимулирует своевременное выполнение событий и наказывает за задержки, способствуя тем самым оптимизации расписания.
Состояние среды определяется текущим событием, задержками, уровнем загруженности ресурсов и информацией о следующих ресурсах по маршруту поезда. Эксперименты показали, что применение RL позволяет находить эффективные решения по перепланированию в рамках ограниченного времени обучения.