Статья опубликована в рамках: Научного журнала «Студенческий» № 16(354)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал
ФОРМИРОВАНИЕ РЕЙТИНГА КИБЕРСПОРТСМЕНОВ НА ОСНОВЕ КЛАСТЕРНОГО АНАЛИЗА СТАТИСТИЧЕСКИХ ПОКАЗАТЕЛЕЙ (НА ПРИМЕРЕ DOTA 2)
АННОТАЦИЯ
В работе рассматривается задача формирования рейтинга киберспортсменов на основе статистических показателей игроков Dota 2. На основе данных профессионального турнира The International 2025 сформирован агрегированный набор признаков, характеризующих игровую эффективность. Для группировки игроков применён метод к-средних [3; 4] с предварительной стандартизацией данных [5]. Обоснование числа кластеров выполнено с использованием метода локтя и дендрограммы. Дополнительно проведён анализ взаимосвязей признаков с использованием корреляционной матрицы и дендрограммы переменных. Полученные кластеры интерпретированы как уровни рейтинга игроков.
Ключевые слова: киберспорт, Dota 2, кластерный анализ, метод к-средних, машинное обучение, рейтинг игроков, статистический анализ, стандартизация данных, анализ данных.
В рамках исследования была поставлена задача сформировать рейтинговую модель киберспортсменов на основе статистических показателей игроков в дисциплине Dota 2. В условиях роста популярности киберспорта и увеличения объёма доступных игровых данных возникает необходимость разработки методов объективной оценки эффективности игроков [8].
В качестве исходной информации использовались данные, выгруженные с платформы STRATZ [9] по одному профессиональному турниру уровня The International 2025. Такой выбор обусловлен тем, что профессиональный турнир представляет собой наиболее однородную и качественную выборку: все матчи относятся к одному соревновательному контексту, проводятся в сходных условиях и включают игроков высокого уровня. Это позволяет снизить влияние внешних факторов и сосредоточиться на статистической структуре игровых показателей.
На текущем этапе в качестве базы исследования использовались данные одного турнира, что привело к относительно компактной, но содержательно значимой выборке. Несмотря на ограниченный объём данных, такая выборка позволяет выявить устойчивые закономерности в поведении игроков.
Исходные матчевые данные содержали информацию по каждому игроку в каждом матче. На основе этих данных был сформирован агрегированный массив наблюдений, в котором одной строке соответствует один игрок. Такой подход был выбран осознанно, поскольку целью работы является именно оценка игроков, а не оценка отдельных матчевых выступлений. Если бы кластеризация проводилась на уровне матчей, результатом были бы типы игровых ситуаций, а не характеристики игроков.
Для каждого игрока были рассчитаны следующие показатели: количество сыгранных матчей, среднее число убийств, среднее число смертей, среднее число ассистов, среднее значение золота в минуту (GPM), среднее значение опыта в минуту (XPM), а также доля побед, интерпретируемая как winrate.
Таким образом, итоговый массив для анализа включал количественные признаки, отражающие различные аспекты игровой эффективности.
Выбор используемых признаков обусловлен их содержательной значимостью. Показатели убийств, смертей и ассистов отражают боевую эффективность игрока и его участие в командных действиях. Показатели GPM и XPM характеризуют темп экономического и игрового развития. Показатель winrate выступает как интегральная характеристика результативности игрока на дистанции.
В совокупности выбранные признаки позволяют охватить основные аспекты игровой деятельности: боевую активность, выживаемость, участие в командных взаимодействиях, экономическое развитие и итоговую успешность.
Перед применением методов кластеризации была выполнена стандартизация признаков. Изначально рассматривался вариант минимаксной нормализации, однако он был заменён на стандартизацию через Z-значения, поскольку данный метод является более устойчивым к выбросам [5].
Стандартизация выполняется по формуле:
z = (x – среднее) / стандартное отклонение.
Данный подход позволяет привести признаки к сопоставимому масштабу. Это особенно важно, поскольку исходные показатели имеют разные единицы измерения и различаются по порядку величин. Например, значения GPM и XPM существенно превышают значения убийств и смертей. Без нормализации это могло бы привести к искажению результатов кластеризации.
Для группировки игроков был использован метод к-средних [3; 4]. Данный метод позволяет разбить множество объектов на заданное число кластеров таким образом, чтобы объекты внутри кластера были максимально похожи друг на друга.
Метод к-средних был выбран по следующим причинам:
- он хорошо работает с числовыми признаками;
- обеспечивает интерпретируемые результаты;
- широко применяется в задачах сегментации [2].
В качестве меры расстояния использовалась евклидова метрика. Это обусловлено тем, что метод к-средних минимизирует сумму квадратов расстояний объектов до центров кластеров, что делает использование евклидова расстояния естественным выбором [7].
Поскольку метод к-средних требует заранее задать число кластеров, была проведена серия экспериментов с различными значениями k. Для этого использовался метод локтя, основанный на анализе зависимости внутрикластерной дисперсии от числа кластеров [1; 2].
Дополнительно для анализа структуры данных была построена дендрограмма игроков с использованием метода Уорда. Данный метод также ориентирован на минимизацию внутрикластерной дисперсии, что делает его согласованным с методом к-средних.
Для оценки взаимосвязей между признаками была построена корреляционная матрица. Это позволило определить степень зависимости между показателями и выявить возможную избыточность признаков [7].
Дополнительно была построена дендрограмма признаков, позволяющая определить, какие показатели образуют группы по степени схожести.

Рисунок 1. Метод локтя
Анализ графика показал, что существенное снижение инерции происходит до значения k = 4, после чего уменьшение становится менее выраженным. Это позволяет выбрать четыре кластера как оптимальное число групп.

Рисунок 2. Дендограмма игроков
Дендограмма игроков демонстрирует наличие нескольких устойчивых групп, что подтверждает результаты метода локтя.

Рисунок 3. Распределение игроков по кластерам
Распределение игроков по кластерам является относительно равномерным, что свидетельствует о корректности кластеризации.

Рисунок 4. Профили кластеров по стандартизованным значениям признаков
Профили кластеров позволяют интерпретировать полученные группы игроков. Один из кластеров характеризуется высокими значениями экономических показателей и winrate при низком уровне смертей, что соответствует наиболее эффективным игрокам. Другие кластеры отражают различные стили игры и уровни эффективности.

Рисунок 5. Тепловая карта корреляций признаков
Анализ показал сильную положительную связь между GPM и XPM, что указывает на их общую природу. Показатель winrate демонстрирует меньшую зависимость от других переменных.

Рисунок 6. Дендограмма признаков
Результаты подтверждают наличие групп взаимосвязанных признаков, отражающих различные аспекты игровой эффективности.
ВЫВОДЫ
В результате проведённого исследования была разработана модель формирования рейтинга киберспортсменов на основе кластерного анализа [1; 2]. Показано, что использование метода к-средних в сочетании со стандартизацией позволяет выявить устойчивые группы игроков.
Анализ взаимосвязей признаков подтвердил их информативность. Полученные кластеры могут быть интерпретированы как уровни рейтинга игроков и использованы в информационно-аналитических системах.
Список литературы:
- Гастев Ю. А. Кластерный анализ в задачах классификации. М.: Наука, 1982.
- Jain A. K., Murty M. N., Flynn P. J. Data Clustering: A Review // ACM Computing Surveys. 1999. Vol. 31, No. 3. P. 264–323.
- MacQueen J. Some Methods for Classification and Analysis of Multivariate Observations // Proceedings of the Fifth Berkeley Symposium. 1967.
- Hartigan J. A., Wong M. A. Algorithm AS 136: A K-Means Clustering Algorithm // Journal of the Royal Statistical Society. 1979.
- Айвазян С. А., Мхитарян В. С. Прикладная статистика и основы эконометрики. М.: ЮНИТИ-ДАНА, 2001.
- Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. Springer, 2009.
- Scholz T. M. eSports is Business. Springer, 2019.
- STRATZ. Dota 2 Statistics Platform. URL: https://stratz.com (дата обращения: 01.05.2026).

