Статья опубликована в рамках: Научного журнала «Студенческий» № 19(357)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал
МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ПРОГНОЗИРОВАНИЯ ОТКАЗОВ СЕРВЕРНОГО ОБОРУДОВАНИЯ
MACHINE LEARNING METHODS FOR PREDICTING SERVER HARDWARE FAILURES
Glagolev Kirill Romanovich
Master’s student, Department of Telecommunication Systems and Information Security, Russian New University,
Russia, Moscow
Stepanova Evgenia Nikolaevna
Scientific supervisor, candidate of Sciences in Pedagogics, associate professor of the Department of Information Systems in Economics and Management, Russian New University,
Russia, Moscow
АННОТАЦИЯ
В статье рассмотрены методы машинного обучения для прогнозирования аппаратных отказов серверного оборудования. Разобраны классические алгоритмы — логистическая регрессия, деревья решений, случайный лес и градиентный бустинг, их принципы работы, достоинства и ограничения. Отдельно рассмотрены нейронные сети, в том числе архитектура LSTM, которая учитывает изменение параметров во времени. Методы сравниваются по нескольким критериям. Показано, что выбор метода зависит от данных и условий работы, а наиболее перспективно сочетание разных подходов в системах предиктивного обслуживания.
ABSTRACT
The article discusses machine learning methods used to predict hardware failures of server equipment. Classical algorithms — logistic regression, decision trees, random forest and gradient boosting — are analyzed; their principles, advantages and limitations for the analysis of telemetry data are considered. Special attention is paid to neural network approaches, in particular recurrent networks and the Long Short-Term Memory (LSTM) architecture, capable of taking into account the temporal dynamics of component degradation. A comparative analysis of the methods is carried out according to the criteria of nonlinearity handling, working with imbalanced data, interpretability and requirements for the training set. It is shown that the choice of method is determined by the nature of the data and operating conditions, and the most promising direction is the combination of different approaches within the framework of predictive maintenance of infrastructure.
Ключевые слова: машинное обучение, прогнозирование отказов, серверное оборудование, нейронные сети, LSTM, предиктивное обслуживание, анализ телеметрии.
Keywords: machine learning, failure prediction, server equipment, neural networks, LSTM, predictive maintenance, telemetry analysis.
- Введение
Надёжность серверного оборудования — одно из главных условий стабильной работы информационных систем. Аппаратные отказы серверов происходят не так часто, но приводят к большим потерям: час простоя критичных сервисов обходится большинству компаний в сотни тысяч и миллионы долларов [1]. При этом обычные средства диагностики — анализ SMART-атрибутов накопителей, журналов событий и пороговые системы оповещения — фиксируют уже случившиеся отказы и плохо подходят для раннего выявления проблем [2].
Аппаратные отказы трудно предсказать: компоненты деградируют скрыто, неисправность проявляется не сразу, а на состояние оборудования одновременно влияет множество факторов — нагрузка, температура, питание и условия эксплуатации. Из-за этого пороговые методы анализа работают плохо. В то же время объём накапливаемых данных мониторинга постоянно растёт, и это создаёт основу для применения машинного обучения, которое способно находить скрытые признаки деградации и переходить к предиктивному обслуживанию [3].
Цель статьи — систематизировать методы машинного обучения для прогнозирования аппаратных отказов серверов, рассмотреть принципы их работы, достоинства и ограничения и сравнить классические алгоритмы с нейронными сетями. Статья продолжает ранее рассмотренные вопросы природы отказов и источников данных мониторинга [13].
Чаще всего задачу прогнозирования отказов сводят к бинарной классификации: по набору признаков, измеренных в определённый момент или за некоторый период, модель относит состояние оборудования к классу «штатная работа» или «предотказное состояние». Главная особенность задачи — сильный дисбаланс классов: на отказы приходятся лишь единицы процентов всех данных. Это влияет на выбор алгоритма, подготовку данных и метрики оценки качества.
- Классические методы машинного обучения для прогнозирования отказов
Классические алгоритмы машинного обучения широко применяются для прогнозирования отказов. Их суть — построение математических моделей, которые находят закономерности в данных мониторинга. Популярность таких методов объясняется их достоинствами: они просты в использовании, дают понятные результаты и работают с разными типами данных. Ниже рассмотрены четыре наиболее распространённых метода.
Перед применением алгоритмов данные нужно подготовить — от этого во многом зависит точность прогноза. Исходную телеметрию (температуру, SMART-атрибуты, число ошибок памяти, нагрузку, состояние питания) превращают в набор признаков. Помимо текущих значений часто считают усреднённые показатели за определённый период: средние, отклонения, скорость изменения, число событий. Это частично восполняет неспособность классических методов учитывать изменение параметров во времени. Отдельно решают проблему дисбаланса классов — для этого увеличивают долю редких отказов в выборке, сокращают преобладающий класс или создают синтетические примеры отказов.
Логистическая регрессия один из самых распространённых базовых алгоритмов. Его выбирают для бинарной классификации, когда нужно оценить риск отказа сервера при заданных значениях признаков. Достоинство алгоритма — понятность: видно, как каждый признак влияет на результат. Недостаток — связь «признаки — результат» считается линейной, поэтому в сложных нелинейных случаях метод работает хуже [4]. Выход модели трактуется как вероятность отказа, а порог классификации задаётся исходя из допустимого риска. Благодаря простоте модель быстро обучается даже на больших объёмах данных, что важно при обработке потоковой телеметрии сразу от нескольких серверов.
Пример логистической кривой по одномерным данным показан на рисунке 1.

Рисунок 1. Уровень риска отказа серверного оборудования в зависимости от температурного режима центрального процессора (Выполнен автором статьи)
Как видно из рисунка 1, при температуре центрального процессора (ЦП) до 60 °C риск отказа незначителен — это нормальный режим работы. В диапазоне 65–80 °C риск быстро растёт, а при температуре выше 85 °C становится близким к единице. Точки на графике — наблюдения обучающей выборки: нормальная работа и зарегистрированные отказы.
Следующий алгоритм — деревья решений, которые позволяют моделировать более сложные связи между параметрами. Он последовательно делит пространство признаков на области с похожими наблюдениями. Достоинства — учёт нелинейных закономерностей и наглядность прогноза. Слабые стороны — склонность к переобучению и плохая работа с зашумлёнными данными [5].
При прогнозировании отказов метод оценивает такие параметры, как температура ЦП, нагрузка на оперативную память и число ошибок. Каждое разбиение выбирается так, чтобы лучше разделить наблюдения на классы «отказ» и «штатная работа». Для этого используют критерий энтропии (мера неопределённости, которую стремятся уменьшить) или индекс Джини (вероятность ошибочной классификации, который стремится к нулю при идеальном разделении). Эти критерии помогают найти пороговые значения параметров — например, разбиение по температуре выше 75 °C может указывать на риск перегрева.
На рисунке 2 показан пример дерева решений глубиной 3, обученного на признаках: температуре ЦП (Т_ЦП), числе ошибок памяти (ECC) и загрузке дисковой подсистемы (Disk I/O).
Корневой узел дерева — условие Т_ЦП > 75 °C, самый информативный признак. Если оно выполняется (правая ветвь), модель проверяет число ошибок ECC: больше 50 за сутки — решение «Отказ», иначе «Норма». Левая ветвь (умеренная температура) ведёт к проверке загрузки диска: при Disk I/O > 90 % прогнозируется «Отказ», иначе — нормальная работа.

Рисунок 2. Пример дерева решений для классификации состояния сервера (глубина = 3) (Выполнен автором статьи)
Для повышения точности и устойчивости применяют ансамблевые методы, один из которых — Random Forest. Это набор деревьев решений, каждое из которых обучается на случайной части данных и признаков, а итоговое решение принимается голосованием [6]. Такой подход снижает влияние случайных ошибок, делает модель устойчивее к шуму и улучшает её обобщающую способность. Метод хорошо подходит для табличных данных серверов и часто используется для прогнозирования отказов накопителей [7].
Схема работы случайного леса для прогнозирования отказов показана на рисунке 3.
На вход ансамбля поступает вектор признаков сервера (температура, число ошибок ECC, загрузка диска и др.). На основе случайных выборок с повторениями формируется несколько независимых деревьев, каждое обучено на своём подмножестве данных. В примере первое и третье деревья дают решение «Отказ», второе — «Норма». По большинству голосов итоговый прогноз — «Отказ».

Рисунок 3. Архитектура случайного леса (Random Forest) для прогнозирования отказов серверного оборудования (Выполнен автором статьи)
Ещё один эффективный ансамблевый метод — градиентный бустинг. В отличие от Random Forest, деревья здесь обучаются последовательно, и каждое новое исправляет ошибки предыдущих [8]. Это позволяет точнее описывать сложные зависимости. Метод даёт высокую точность и хорошо справляется с редкими событиями, к которым относятся отказы серверов. Минусы — большие вычислительные затраты и необходимость тщательной настройки параметров.
В целом классические алгоритмы обладают рядом достоинств: они просты в обучении, работают с разными типами данных и применимы при небольших обучающих выборках. Многие из них показывают значимость признаков, что помогает понять, какие факторы влияют на стабильность работы серверов. Главные недостатки — слабый учёт изменения параметров во времени и трудности с обнаружением скрытых нелинейных зависимостей.
Результаты сравнения классических алгоритмов сведены в таблицу 1.
Таблица 1.
Сопоставительный анализ традиционных алгоритмов машинного обучения
|
Метод машинного обучения |
Тип задачи |
Учёт нелинейности |
Работа с несбаланс. данными |
Интерпретируемость |
Требования к данным |
|---|---|---|---|---|---|
|
Логистическая регрессия |
Бинарная классификация |
Низкий |
Низкая |
Высокая |
Небольшие объёмы, структурированные данные |
|
Деревья решений |
Классификация, регрессия |
Средний |
Средняя |
Высокая |
Средний объём, допускается шум |
|
Случайный лес |
Классификация, регрессия |
Высокий |
Высокая |
Средняя |
Средние и большие объёмы данных |
|
Градиентный бустинг |
Классификация, регрессия |
Очень высокий |
Высокая |
Низкая–средняя |
Большие объёмы, требует настройки |
Из таблицы 1 видно, что у каждого алгоритма свои свойства и сфера применения. Простые методы, как логистическая регрессия, легко интерпретируются, но плохо моделируют сложные зависимости. Деревья решений учитывают нелинейные связи и наглядны, но чувствительны к шуму и переобучению. Ансамблевые методы — Random Forest и градиентный бустинг — точнее за счёт объединения многих моделей и лучше работают с несбалансированными данными, но требуют больше вычислений и хуже интерпретируются.
- Нейронные сети в задачах прогнозирования отказов
Нейронные сети — это подход машинного обучения, основанный на принципах работы биологических нейронных систем. В отличие от классических алгоритмов, нейросети сами строят сложные признаки и находят нелинейные зависимости в данных, без явного задания их структуры [9].
При прогнозировании отказов серверов нейросети применяют, когда данные сложные, многомерные и меняются во времени. В таких условиях классические методы работают хуже, потому что требуют заранее подготовленных признаков и плохо учитывают связь параметров во времени. Нейросети же могут обрабатывать данные почти в исходном виде, сами выделяя нужные признаки.
Идея нейросети в том, что данные проходят через несколько связанных слоёв, каждый из которых нелинейно преобразует информацию. При обучении параметры сети меняются так, чтобы как можно сильнее уменьшить ошибку прогноза. Это позволяет модели подстраиваться под особенности данных и находить скрытые закономерности, недоступные простым алгоритмам.
Для нашей задачи перспективны рекуррентные нейронные сети. Их главное достоинство — умение работать с последовательностями данных. Поскольку параметры серверов меняются во времени, эта способность важна для точности прогнозов [10].
Обычные рекуррентные сети плохо учитывают долгосрочные изменения параметров. Чтобы решить эту проблему, разработали архитектуру долгой краткосрочной памяти (Long Short-Term Memory, LSTM), которая одновременно учитывает и долгосрочные, и краткосрочные зависимости [11]. Это важно для оценки постепенной деградации компонентов, так как позволяет связать ранние малозаметные изменения с будущим отказом. Исследования показывают, что модели на основе LSTM точно обнаруживают отказы накопителей за несколько суток до их наступления [12].
Главные достоинства нейросетей: они находят неочевидные связи между параметрами, учитывают изменение параметров во времени и подстраиваются под особенности работы конкретных серверов. Это делает их перспективным средством прогнозирования отказов, вызванных долгим влиянием трудноформализуемых факторов.
Есть и слабые стороны. Для хорошего обучения нейросети нужен большой объём данных, а для настройки — значительные вычислительные ресурсы. Кроме того, нейросети хуже интерпретируются, поэтому их решения сложнее обосновать. Если данных мало или нужно чёткое обоснование прогноза, применять такие модели нецелесообразно.
Таким образом, нейросети — мощный, но не универсальный инструмент. Их применение оправдано, когда нужно учитывать изменение данных во времени и сложные нелинейные зависимости. Для большей надёжности их разумно сочетать с классическими алгоритмами.
- Оценка качества прогнозирования и практические аспекты применения
Правильный выбор метрик качества важен для прогнозирования отказов. Из-за сильного дисбаланса классов доля верных ответов (accuracy) малоинформативна: модель, относящая все наблюдения к классу «штатная работа», формально точна, но не находит ни одного отказа. Поэтому на практике используют метрики, учитывающие баланс между обнаружением отказов и числом ложных срабатываний.
Основные показатели — точность (precision, доля настоящих отказов среди спрогнозированных) и полнота (recall, доля найденных отказов среди всех произошедших). Их совместную оценку даёт F-мера. Для серверов также важны коэффициент обнаружения отказов и коэффициент ложных срабатываний. Высокая полнота помогает предотвратить большинство отказов, но слишком много ложных предупреждений ведёт к лишним заменам исправного оборудования и росту затрат. Важна и заблаговременность прогноза — запас времени между предупреждением и отказом, которого должно хватить на ремонт.
На практике обученную модель встраивают в систему мониторинга: она получает данные с датчиков, накопителей и журналов событий и оценивает риск отказа почти в реальном времени. Чтобы качество прогнозов не падало, модель нужно периодически дообучать на свежих данных, ведь оборудование, нагрузка и условия работы со временем меняются. Всё это обеспечивает переход от устранения уже случившихся отказов к их заблаговременному предотвращению.
- Заключение
Анализ показал, что машинное обучение даёт новый инструмент для прогнозирования аппаратных отказов серверов и преодолевает главный недостаток обычной диагностики — её запоздалый характер. Классические алгоритмы (логистическая регрессия, деревья решений, Random Forest, градиентный бустинг) понятны и применимы при ограниченных данных, а ансамблевые методы достигают высокой точности на несбалансированных и сложных данных.
Нейросети, прежде всего рекуррентные сети и LSTM, дополняют их способностью учитывать изменение параметров во времени и находить скрытые нелинейные зависимости. Но их применение оправдано в основном при больших объёмах данных и достаточных вычислительных ресурсах.
Универсального метода нет: выбор зависит от данных, требований к понятности прогноза и условий работы оборудования. Важен и правильный выбор метрик, учитывающих дисбаланс классов и баланс между обнаружением отказов и ложными срабатываниями. Наиболее перспективно сочетать классические и нейросетевые подходы в единых системах предиктивного обслуживания — это объединяет понятность, устойчивость и раннее обнаружение деградации.
Список литературы:
- DiDio, L. Cost of Hourly Downtime Soars: 81% of Enterprises Say it Exceeds $300K On Average / L. DiDio. — Текст : электронный // ITIC : [сайт]. — URL: https://itic-corp.com/cost-of-hourly-downtime-soars-81-of-enterprises-say-it-exceeds-300k-on-average/ (дата обращения: 16.05.2026). — Режим доступа: свободный.
- Salfner F., Lenk M., Malek M. A survey of online failure prediction methods // ACM Computing Surveys. – 2010. – Vol. 42, No. 3. – Article 10. – P. 1–42.
- Botezatu M. M., Giurgiu I., Bogojeska J., Wiesmann D. Predicting disk replacement towards reliable data centers // Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’16). – New York: ACM, 2016. – P. 39–48.
- Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. – 2nd ed. – New York: Springer, 2009. – 745 p.
- Quinlan J. R. Induction of decision trees // Machine Learning. – 1986. – Vol. 1, No. 1. – P. 81–106.
- Breiman L. Random forests // Machine Learning. – 2001. – Vol. 45, No. 1. – P. 5–32.
- Shen J., Wan J., Lim S.-J., Yu L. Random-forest-based failure prediction for hard disk drives // International Journal of Distributed Sensor Networks. – 2018. – Vol. 14, No. 11. – P. 1–13.
- Chen T., Guestrin C. XGBoost: A scalable tree boosting system // Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’16). – New York: ACM, 2016. – P. 785–794.
- Goodfellow I., Bengio Y., Courville A. Deep Learning. – Cambridge, MA: MIT Press, 2016. – 800 p.
- Lipton Z. C., Berkowitz J., Elkan C. A critical review of recurrent neural networks for sequence learning // arXiv preprint arXiv:1506.00019. – 2015. – 38 p.
- Hochreiter S., Schmidhuber J. Long short-term memory // Neural Computation. – 1997. – Vol. 9, No. 8. – P. 1735–1780.
- Shen J., Ren Y., Wan J., Lan Y. Hard disk drive failure prediction for mobile edge computing based on an LSTM recurrent neural network // Mobile Information Systems. – 2021. – Vol. 2021. – Article 8878364. – P. 1–12.
- Глаголев, К. Р. Типизация отказов серверного оборудования / К. Р. Глаголев // Студенческий : электронный научный журнал. — 2026. — № 16 (354). — Текст : электронный. — Режим доступа:. — URL: https://sibac.info/journal/student/354/412375, свободный. (дата обращения: 16.05.2026).

