Статья опубликована в рамках: Научного журнала «Студенческий» № 17(313)
Рубрика журнала: Информационные технологии
ПРИМЕНЕНИЕ Q-LEARNING ДЛЯ ОПТИМИЗАЦИИ ПОТОКОВ АВТОМОБИЛЕЙ
APPLICATION OF Q-LEARNING FOR TRAFFIC FLOW OPTIMIZATION
Kuban Imanbekov
student, Department of Computer Systems and Networks, Bauman Moscow State Technical University,
Russia, Moscow
Irina Nilolaevna Barskaya
student, Department of Computer Systems and Networks, Bauman Moscow State Technical University,
Russia, Moscow
Sergey Danilyuk
scientific supervisor, Senior Lecturer, Department of Computer Systems and Networks, Bauman Moscow State Technical University,
Russia, Moscow
АННОТАЦИЯ
В данной работе исследуется проблема растущей загруженности городских дорог и предлагается интеллектуальный подход к её решению с применением методов машинного обучения. Особое внимание уделено алгоритму Q-learning — одной из форм обучения с подкреплением, позволяющей оптимизировать управление светофорными объектами в городской транспортной сети. Проведён обзор существующих адаптивных систем управления (SCATS, SCOOT, InSync), а также реализована и протестирована программная система регулирования трафика в среде симуляции SUMO. Полученные результаты демонстрируют потенциал снижения времени задержки на перекрёстках на 15%, что подтверждает эффективность предложенного подхода и открывает перспективы дальнейшего внедрения интеллектуальных транспортных систем.
ABSTRACT
This paper addresses the issue of increasing urban road congestion and proposes an intelligent solution using machine learning methods. Special focus is placed on the Q-learning algorithm — a form of reinforcement learning that enables the optimization of traffic light control in urban transportation networks. The study reviews existing adaptive traffic management systems (SCATS, SCOOT, InSync), and presents the implementation and testing of a traffic control system within the SUMO simulation environment. The results demonstrate a potential reduction in vehicle delay at intersections by 10–15%, confirming the effectiveness of the proposed approach and highlighting the potential for further development of intelligent transportation systems.
Ключевые слова: интеллектуальная транспортная система, Q-learning, обучение с подкреплением, оптимизация светофоров, загруженность дорог, SUMO, городское движение, управление транспортными потоками.
Keywords: intelligent transportation system, Q-learning, reinforcement learning, traffic light optimization, traffic congestion, SUMO, urban traffic, traffic flow control.
ВВЕДЕНИЕ
В условиях стремительного роста количества автомобилей и увеличения загруженности городских дорог традиционные методы регулирования трафика становятся всё менее эффективными. Это приводит к заторам, увеличению времени поездок и ухудшению экологической обстановки. Современные технологии, в частности методы машинного обучения, открывают новые возможности для интеллектуального управления транспортными потоками. В данной работе рассматривается применение алгоритма Q-learning для оптимизации работы светофоров, с целью снижения задержек на перекрёстках и повышения пропускной способности городской дорожной сети [11; 12; 13]
ЦЕЛЬ
Целью данной работы является применение алгоритма Q-learning для оптимизации управления светофорным объектом на городском перекрёстке и провести оценку его эффективности с точки зрения снижения времени задержки транспортных средств и повышения пропускной способности транспортного узла.
ПРИМЕНЕНИЕ Q-LEARNING ДЛЯ РЕГУЛИРОВАНИЯ АВТОМОБИЛЬНЫХ ПОТОКОВ
Управление дорожным трафиком в городских условиях представляет собой сложную задачу, обусловленную высокой динамичностью и непредсказуемостью транспортных потоков. Для её решения требуются алгоритмы, способные адаптироваться к изменениям среды и принимать эффективные решения в реальном времени. Одним из таких подходов является обучение с подкреплением, в частности, метод Q-learning, который позволяет агенту накапливать опыт взаимодействия со средой и формировать стратегию поведения, максимизирующую общее вознаграждение.
В рамках данного исследования в качестве среды моделирования использовался SUMO (Simulation of Urban Mobility)[10] — инструмент с открытым исходным кодом, предназначенный для имитации городского трафика. Он позволяет воспроизводить движение транспортных средств, учитывать светофорное регулирование и взаимодействие различных участников дорожного движения.
Цель Q-learning — научить агента функции ценности Q(s,a). Она оценивает ожидаемое вознаграждение, которое агент может получить, если выполнит действие at в состоянии st и будет следовать оптимальной стратегии в дальнейшем.
Обновление значений Q-функции осуществляется с помощью уравнения Беллмана ниже [1]:
где:
- – текущая оценка полезности (или ценности) выполнения действия
в состоянии
.Это значение обновляется на основе опыта.
- – текущее состояние агента в среде
- текущее действие, выбранное агентом в состоянии
- – коэффициент обучения, скорость, с которой новое знание влияет на текущее. Значение лежит в диапазоне 0, 1]. Маленькое
делает обучение медленным, большое
— быстрым, но может привести к нестабильности.
- награда, полученная агентом после выполнения действия
в состоянии
и перехода в состояние
. Награда отражает, насколько действие было полезным.
- следующее состояние, в которое переходит агент после выполнения действия
.
- – дисконтирующий коэффициент, учитывающий влияние будущих наград. Значение лежит в диапазоне [0, 1]. При
=0 агент учитывает только текущие награды, при
=1 он стремится максимизировать долгосрочные награды.
- – максимальная ожидаемая полезность действия
в следующем состоянии
. Этот термин отражает принцип "максимизации", который агент использует для оптимизации своего поведения.
Выбор действия производится по ε – жадной стратегии, чтобы сбалансировать изучение новой информации (exploration) и использование уже накопленных знаний (exploitation). При такой стратегии агент выбирает случайное действие с вероятностью ε и наилучшее известное действие с вероятностью 1− ε
Для оценки эффективности управления светофорами вычисляется награда на основе изменения плотности движения (см. формулу 2). Взаимодействие с симуляцией осуществляется через методы, которые устанавливают длительность фаз светофора, выполняют шаги симуляции и возвращают обновленное состояние, награду и флаг завершения эпизода.
(2)
где:
- награда,
- – количество автомобилей до выполнения действия,
- – количество автомобилей после выполнения действия.
Одной из наиболее распространённых, простых и базовых моделей перекрёстков, используемых в задачах моделирования, является регулируемый крестообразный перекрёсток с однополосным движением (Рисунок 1). Он включает четыре подъезда к перекрёстку и четыре выезда из него. Данный тип перекрёстка часто встречается в городских условиях и представляет собой удобную основу для реализации алгоритмов управления. Светофор в такой модели играет ключевую роль: он поочерёдно разрешает движение в различных направлениях, тем самым управляя транспортными потоками. Представленная модель была реализована в программном обеспечении SUMO.
Рисунок 1. Модель перекрёстка в SUMO
Указанная модель была использована в качестве среды для реализации алгоритма обучения с подкреплением на основе метода Q-learning. Состояние среды представлено кортежем из пяти элементов: Stoplight_signal, N_veh_West_ID, N_veh_South_ID, N_veh_East_ID, N_veh_North_ID. Переменная Stoplight_signal принимает значения в соответствии с сигналом светофора. Остальные значения соответствуют количеству автомобилей на западной, южной, восточной и северной полосах соответственно. Для снижения размерности пространства состояний количество автомобилей делится на 4, после чего берётся его целая часть.
Пространство действий агента определяется длительностью сигнала светофора, которую можно варьировать от 4 до 44 секунд с шагом в 2 секунды. Это позволяет обеспечить достаточную гибкость при выборе стратегии регулирования.
РЕЗУЛЬТАТЫ УПРАВЛЕНИЯ АВТОМОБИЛЬНЫМ ПОТОКОМ
Для объективной оценки эффективности интеллектуальной программной системы управления дорожным движением были проведены симуляционные испытания в среде SUMO. Тестирование осуществлялось по нескольким сценариям, отличающимся количеством автомобилей: 50, 100, 200, 300, 500 и 1000 транспортных средств. В каждом сценарии автомобили генерировались с равномерной интенсивностью — одно транспортное средство в секунду, с направлением движения, выбранным случайным образом. Такая модель приближена к условиям реального времени.
Для повышения достоверности результатов каждый сценарий запускался 10 раз со случайными траекториями движений транспортных средств, что позволило получить усреднённые значения по выбранным метрикам. Сравнение эффективности проводилось между интеллектуальным (intelligent) и фиксированным управлением светофором (fixed).
Анализ производительности системы осуществлялся по следующим ключевым метрикам:
- Average Delay – средняя задержка автомобилей на перекрёстке;
- Throughput – пропускная способность, количество транспортных средств, прошедших перекрёсток за заданный промежуток времени;
- Totaltime – время, затраченное на всю симуляцию
По результатам тестирования оценивалась относительное улучшение методов управления при помощи обучения с подкреплением по сравнению с фиксированным управлением светофоров по следующим формулам:
(3)
(4)
(5)
Результаты тестов эффективности интеллектуального управления автомобильными потоками для крестообразного перекрёстка с двумя полосами приведён в таблице ниже (см. Таблица 1).
Таблица 1.
Результаты тестов для крестообразного перекрёстка с 2 полосами
Тип управления |
Метрика |
Количество ТС в симуляции |
|||||
---|---|---|---|---|---|---|---|
50 |
100 |
200 |
300 |
500 |
1000 |
||
Фикс-ое упр-ие |
Average Delay (сек) |
3.1 |
6.5 |
12.4 |
19.2 |
27.8 |
41.6 |
Интел-ое упр-ие |
Average Delay (сек) |
2.6 |
5.2 |
10.4 |
16.0 |
22.8 |
33.5 |
Улучшение AD(%) |
16 |
20 |
16 |
17 |
18 |
19 |
|
Фикс-ое упр-ие |
Totaltime (сек) |
54 |
102 |
215 |
330 |
520 |
1040 |
Интел-ое упр-ие |
Totaltime (сек) |
45.9 |
85.0 |
182 |
273 |
442 |
857 |
Улучшение TT(%) |
15 |
17 |
15 |
17 |
15 |
18 |
|
Фикс-ое упр-ие |
Throughput (1/сек) |
0.92 |
1.75 |
3.2 |
4.1 |
5.6 |
6.3 |
Интел-ое упр-ие |
Throughput (1/сек) |
1.06 |
2.02 |
3.76 |
4.8 |
6.6 |
7.5 |
Улучшение Thr(%) |
15 |
15.4 |
17.5 |
17 |
17.8 |
19 |
Анализ представленных в таблице результатов симуляций показывает, что внедрение интеллектуального управления светофорным регулированием на перекрёстке с двумя полосами обеспечивает значительное повышение эксплуатационных характеристик транспортной системы.
Во всех сценариях, охватывающих диапазон от 50 до 1000 транспортных средств, наблюдается стабильно положительная динамика по всем ключевым метрикам:
- Средняя задержка (Average Delay) снизилась на 16–20%, что указывает на уменьшение времени ожидания водителей при проезде перекрёстка;
- Общее время симуляции (Totaltime) сократилось на 15–18%, что свидетельствует об ускорении полного цикла прохождения всех транспортных потоков;
- Пропускная способность (Throughput) возросла на 15–19%, подтверждая улучшение распределения фаз светофора и повышение эффективности использования улично-дорожной сети.
ВЫВОДЫ
В этом исследовании представлена возможность использования алгоритмов обучения с подкреплением для интеллектуального управления потоками автомобилей. Полученные результаты демонстрируют, что интеллектуальное управление позволяет достаточно эффективно управлять автомобильным потоком около крестообразного перекрёстка с двумя полосами.
Список литературы:
- Sutton R.S., Barto A.G. Reinforcement learning: An introduction. 2nd ed. Cambridge, Massachusetts: The MIT Press, 2018. 548 с.
- Правила дорожного движения Российской Федерации: утв. Постановлением Совета Министров – Правительства РФ от 23.10.1993 № 1090 // Собр. законодательства Рос. Федерации. 1993. № 47. Ст. 5193.
- Kesting A., Treiber M. Adaptive traffic signal control using reinforcement learning // Transportation Research Part C. 2010. Vol. 18(1). P. 32–43.
- Zhang K., Yang Z., Zhang T. A deep reinforcement learning-based framework for traffic signal control // Transportation Research Part C: Emerging Technologies. 2021. Vol. 129. P. 103–115.
- Van der Pol E., Oliehoek F.A. Deep reinforcement learning for traffic light control // NIPS Deep Reinforcement Learning Workshop. 2016. P. 1–8.
- Герасимов Д.Ю., Мухина С.И. Применение методов машинного обучения для управления светофорными объектами // Вестник транспортной академии. 2021. № 1. С. 44–50.
- Соловьев В.Д. Математические модели систем управления дорожным движением. М.: Транспорт, 2004. 284 с.
- Redmon J., Divvala S., Girshick R., Farhadi A. You only look once: unified, real-time object detection // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. P. 779–788.
- Koenders M. Traffic flow theory and modelling. Delft: Delft University Press, 2012. 230 p.
- Simulation of Urban MObility (SUMO) [Электронный ресурс]. – Режим доступа: https://eclipse.dev/sumo/ (дата обращения: 15.11.2024).
- TomTom Traffic Index [Электронный ресурс]. – Режим доступа: https://www.tomtom.com/traffic-index/ranking/ (дата обращения: 15.11.2024).
- INRIX Global Traffic Scorecard [Электронный ресурс]. – Режим доступа: https://inrix.com/scorecard/ (дата обращения: 15.11.2024).
- Numbeo Traffic Rankings [Электронный ресурс]. – Режим доступа: https://www.numbeo.com/traffic/rankings.jsp (дата обращения: 15.11.2024).
- Liu W., Anguelov D., Erhan D., Szegedy C., Reed S., Fu C.-Y., Berg A.C. SSD: Single shot multibox detector // Proceedings of the European Conference on Computer Vision. 2016. P. 21–37.
- Lin T.-Y., Goyal P., Girshick R., He K., Dollár P., Hariharan B. Focal loss for dense object detection // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2018. Vol. 42, № 2. С. 318–327.
- Ren S., He K., Girshick R., Sun J. Faster R-CNN: Towards real-time object detection with region proposal networks // Advances in Neural Information Processing Systems. 2015. Vol. 28.
Оставить комментарий