Статья опубликована в рамках: CXXV Международной научно-практической конференции «Экспериментальные и теоретические исследования в современной науке» (Россия, г. Новосибирск, 27 мая 2026 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
ОГРАНИЧЕНИЯ ГЛОБАЛЬНО РАСПРЕДЕЛЁННОЙ ОБРАБОТКИ ПОТОКОВЫХ ДАННЫХ В ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМАХ НА ОСНОВЕ ФЕДЕРАТИВНОГО ОБУЧЕНИЯ
CONSTRAINTS OF GLOBALLY DISTRIBUTED STREAMING DATA PROCESSING IN INTELLIGENT SYSTEMS BASED ON FEDERATED LEARNING
Ermakov Sergey Romanovich
Senior lecturer, Department of Tool and Applied Software, MIREA — Russian Technological University,
Russia, Moscow
АННОТАЦИЯ
В глобально распределённой инфраструктуре интеллектуальные системы на основе федеративного обучения сталкиваются с тремя одновременно действующими ограничениями: устареванием параметров глобальной модели, узкой пропускной способностью межрегиональных каналов связи и концептуальным дрейфом входных распределений. В работе проведён обзор методов и алгоритмов 2017–2025 гг. с проекцией классификации PACELC на штатный режим работы каналов. Показано, что синхронные, асинхронные и адаптивные алгоритмы учитывают перечисленные факторы изолированно. Обоснована необходимость разработки метода и согласованного семейства алгоритмов, обеспечивающих совместный учёт трёх ограничений в трёхуровневой архитектуре.
ABSTRACT
In globally distributed infrastructure, federated-learning-based intelligent systems face three simultaneous constraints: global model parameter staleness, limited wide-area network bandwidth, and concept drift in input distributions. This paper reviews methods and algorithms from 2017–2025 with the PACELC classification projected onto the steady-state communication regime. Existing synchronous, asynchronous and adaptive algorithms are shown to address the listed factors in isolation. The necessity of a method and a consistent family of algorithms providing joint accounting of the three constraints in a three-tier architecture is justified.
Ключевые слова: федеративное обучение; потоковая обработка данных; концептуальный дрейф; распределённая обработка; интеллектуальные системы.
Keywords: federated learning; streaming data processing; concept drift; distributed processing; intelligent systems.
Развитие интеллектуальных систем на основе машинного обучения в последние годы сместилось от централизованных решений к глобально распределённым, в которых обработка потоковых данных выполняется на узлах, разнесённых по нескольким географическим регионам. Сдвиг обусловлен ростом объёмов данных, требованиями к локальности их хранения (Федеральный закон № 152-ФЗ, GDPR), а также необходимостью снижения задержки отклика и устойчивости к отказам узлов инфраструктуры. Федеративное обучение [1] закрепило практику обмена параметрами моделей вместо самих данных. Вместе с тем в режиме функционирования таких систем проявляются факторы, учитываемые в существующих решениях изолированно: устаревание параметров глобальной модели при асинхронной доставке обновлений, ограниченная пропускная способность межрегиональных каналов связи и концептуальный дрейф входных распределений. Целью настоящего исследования является обзор теоретических оснований и существующих методов и выявление ограничений, требующих совместного учёта трёх перечисленных факторов.
1. Теоретические основания и архитектура
Фундаментальное ограничение распределённых систем задаётся теоремой CAP: одновременное обеспечение согласованности, доступности и устойчивости к сетевым разделениям невозможно при отказах сети. Классификация PACELC [2] расширяет теорему на штатный режим: при отсутствии разделений остаётся компромисс между задержкой и согласованностью, именуемый ветвью ELC. Применительно к федеративному обучению это означает, что период синхронизации параметров глобальной модели и согласованность весов между узлами связаны фундаментальным компромиссом, не устраняемым выбором конкретного алгоритма агрегации. Теоретическую основу потоковой обработки задаёт модель Dataflow [3], формализующая семантику обработки запоздалых и переупорядоченных сообщений.
Современные интеллектуальные системы строятся в трёхуровневой архитектуре с облачным, туманным и граничным уровнями. Граничные узлы располагаются на стороне источника данных; туманные узлы регионального уровня агрегируют обновления с граничных и выполняют локальное обучение моделей; облачный уровень реализует глобальную агрегацию параметров. Каналы между туманным и облачным уровнями (wide area network, WAN) ограничены десятками–сотнями мегабит в секунду и определяют допустимую частоту обмена обновлениями (рисунок 1).

Рисунок 1. Трёхуровневая архитектура интеллектуальной системы на основе федеративного обучения
Связь между ключевыми параметрами обмена выражается ограничением на коммуникационную нагрузку:
|
|
(1) |
где
— коммуникационная нагрузка системы;
— степень компрессии обновлений модели;
— размер модели машинного обучения, байт;
— пропускная способность межрегионального канала, бит/с;
— период синхронизации параметров глобальной модели, с;
— коммуникационный бюджет.
2. Анализ существующих методов и алгоритмов
Базовый алгоритм федеративного усреднения (Federated Averaging, FedAvg) [1] выполняет покомпонентное среднее обновлений в синхронном режиме и не учитывает время их формирования, поэтому при асинхронной доставке устаревшие обновления вносят в глобальную модель смещение, пропорциональное темпу концептуального дрейфа. Расширения FedProx [4] и SCAFFOLD [5] компенсируют статистическую гетерогенность данных участников через проксимальный регуляризатор и контрольные переменные соответственно, однако сохраняют синхронную схему обмена и фиксированные параметры обмена в режиме функционирования. Асинхронный алгоритм FedBuff [6] допускает потоковое поступление обновлений с буферизацией и взвешиванием по времени их формирования, однако правило взвешивания подобрано эвристически и не связано с количественными характеристиками дрейфа потока. Адаптивные методы AdaptiveFL [7] и иерархическая агрегация HierFAVG выполняют подбор параметров обмена на низкой частоте, не сравнимой со скоростью дрейфа.
Заключение
Проведённый анализ показывает, что в существующих решениях три выявленных фактора — устаревание параметров глобальной модели, ограниченная пропускная способность межрегиональных каналов связи и концептуальный дрейф входных распределений — учитываются раздельно: алгоритмы агрегации обновлений не связаны с моделями коррекции структуры классификатора при дрейфе, а параметры обмена выбираются эвристически без количественной оценки эффекта на качество модели. Совместный учёт перечисленных факторов в режиме функционирования трёхуровневой архитектуры является перспективной задачей для научных исследований.
Список литературы:
- McMahan H.B., Moore E., Ramage D. et al. Communication-efficient learning of deep networks from decentralized data // Proceedings of AISTATS-2017. — PMLR, 2017. — Vol. 54. — P. 1273–1282.
- Abadi D.J. Consistency tradeoffs in modern distributed database system design: CAP is only part of the story // Computer (IEEE). — 2012. — Vol. 45, № 2. — P. 37–42.
- Akidau T., Bradshaw R., Chambers C. et al. The dataflow model: a practical approach to balancing correctness, latency, and cost in massive-scale, unbounded, out-of-order data processing // Proceedings of the VLDB Endowment. — 2015. — Vol. 8, № 12. — P. 1792–1803.
- Li T., Sahu A.K., Zaheer M. et al. Federated optimization in heterogeneous networks // Proceedings of MLSys-2020. — 2020. — Vol. 2. — P. 429–450.
- Karimireddy S.P., Kale S., Mohri M. et al. SCAFFOLD: stochastic controlled averaging for federated learning // Proceedings of ICML-2020. — PMLR, 2020. — Vol. 119. — P. 5132–5143.
- Nguyen J., Malik K., Zhan H. et al. Federated learning with buffered asynchronous aggregation // Proceedings of AISTATS-2022. — PMLR, 2022. — Vol. 151. — P. 3581–3607.
- Wang S., Tuor T., Salonidis T. et al. Adaptive federated learning in resource constrained edge computing systems // IEEE Journal on Selected Areas in Communications. — 2019. — Vol. 37, № 6. — P. 1205–1221.
дипломов


