Статья опубликована в рамках: CCXVII Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 31 июля 2025 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
ПРОГНОЗИРОВАНИЕ ОТТОКА КЛИЕНТОВ ТЕЛЕКОММУНИКАЦИОННОЙ КОМПАНИИ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ
FORECASTING CUSTOMERS' CHURNING IN A TELECOMMUNICATION COMPANY USING MACHINE LEARNING METHODS
Kireeva Elizaveta
student, Saratov National Research State University,
Russia, Saratov
АННОТАЦИЯ
В статье описывается оттока клиентов телекоммуникационной компании методами машинного обучения. Исследование включало в себя следующие этапы: разведочный анализ, необходимая предобработка, логистическая регрессия, случайный лес и метод k-ближайших соседей.
ABSTRACT
The article describes the churn of customers of a telecommunications company using machine learning methods. The study included the following stages: exploratory analysis, necessary preprocessing, logistic regression, random forest and the k-nearest neighbors method.
Ключевые слова: машинное обучение; разведочный анализ; предобработка.
Keywords: machine learning; exploratory data analysis; data preprocessing.
Современные телекоммуникационные компании сталкиваются с постоянным вызовом в сохранении и увеличении своей клиентской базы. Одним из наиболее серьезных препятствий на этом пути является явление оттока клиентов, которое представляет собой потерю клиентов, переходящих к конкурентам или прекращающих пользоваться услугами компании. В данной рассматривается методика прогнозирования оттока клиентов методами машинного обучения [1]. Постановка задачи: по данным из файла, включающим в себя информацию о клиентах телекоммуникационной компании, их демографических характеристиках, используемых услугах и истории оттока, спрогнозировать отток клиентов [2]. Использовались следующие программные средства: язык программирования Python, а также различны подключаемые библиотеки: pandas, numpy, matplotlib, seaborn и другие; среда для разработки и выполнения программного кода в облаке Google Colab*(По требованию Роскомнадзора информируем, что иностранное лицо, владеющее информационными ресурсами Google является нарушителем законодательства Российской Федерации – прим. ред.). Загружаем данные, выполняем разведочный анализ, разделяем их на обучающий и тестовый наборы, затем обучаем и оцениваем четыре модели машинного обучения: случайный лес, k-ближайших соседей, метод опорных векторов и логистическую регрессию:
# Предварительная обработка данных
data = data.drop(["customerID"], axis=1)
data["TotalCharges"] = pd.to_numeric(data["TotalCharges"], errors='coerce')
data = data.dropna()
# Преобразование категориальных переменных в фиктивные
data = pd.get_dummies(data)
# Разделить данные на X и y
X = data.drop("Churn_Yes", axis=1)
y = data["Churn_Yes"]
# Разделение данных на обучающие и тестовые наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
Рассмотрены четыре модели: случайный лес, k-ближайшие соседи, метод опорных векторов и логистическая регрессия (рис. 1).
Рисунок 1. Точность четырёх моделей
Загружаем данные, выполняем их предобработку (удаляем пропущенные значения и преобразуем категориальные признаки в числовые), разделяем данные на признаки и целевую переменную, а затем на обучающий и тестовый наборы. Далее обучаем две модели машинного обучения: случайный лес (Random Forest) и градиентный бустинг (Gradient Boosting). Наконец, оцениваем качество каждой модели на тестовом наборе данных с помощью метрики accuracy_score и выводим точность каждой модели (рис. 2).
Рисунок 2. Результат двух моделей
Выполним сравнительный анализ рассмотренных алгоритмов. В первом наборе кодов обучаются четыре различные модели: случайный лес, k-ближайших соседей, метод опорных векторов и логистическая регрессия. Каждая модель оценивается по точности с использованием метрики accuracy_score. Во втором наборе кодов обучаются только две модели: случайный лес и градиентный бустинг. Оба набора кодов используют одинаковую метрику оценки качества - accuracy_score, что обеспечивает сопоставимые результаты.
Результаты данной работы могут быть полезны для телекоммуникационных компаний в оптимизации своих маркетинговых и удерживающих стратегий, что в конечном итоге способствует повышению их конкурентоспособности и устойчивости на рынке.
Список литературы:
- Учебник по машинному обучению [Электронный ресурс]. URL:https://academy.yandex.ru/handbook/ml/article/linear-models.
- Набор данных по оттоку клиентов телекоммуникационной компании [Электронный ресурс] // Kaggle [сайт]. - URL: https://www.kaggle.com/datasets/blastchar/telco-customer-churn — Загл. с экрана. — Яз. Англ.
дипломов
Оставить комментарий