Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: CCXVII Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 31 июля 2025 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Киреева Е.А. ПРОГНОЗИРОВАНИЕ ОТТОКА КЛИЕНТОВ ТЕЛЕКОММУНИКАЦИОННОЙ КОМПАНИИ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ // Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ: сб. ст. по мат. CCXVII междунар. студ. науч.-практ. конф. № 14(216). URL: https://sibac.info/archive/meghdis/14(216).pdf (дата обращения: 04.09.2025)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

ПРОГНОЗИРОВАНИЕ ОТТОКА КЛИЕНТОВ ТЕЛЕКОММУНИКАЦИОННОЙ КОМПАНИИ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ

Киреева Елизавета Александровна

студент, Саратовский национальный исследовательский государственный университет имени Н. Г. Чернышевского,

РФ, г. Саратов

FORECASTING CUSTOMERS' CHURNING IN A TELECOMMUNICATION COMPANY USING MACHINE LEARNING METHODS

 

Kireeva Elizaveta

student, Saratov National Research State University,

Russia, Saratov

 

АННОТАЦИЯ

В статье описывается оттока клиентов телекоммуникационной компании методами машинного обучения. Исследование включало в себя следующие этапы: разведочный анализ, необходимая предобработка, логистическая регрессия, случайный лес и метод k-ближайших соседей.

ABSTRACT

The article describes the churn of customers of a telecommunications company using machine learning methods. The study included the following stages: exploratory analysis, necessary preprocessing, logistic regression, random forest and the k-nearest neighbors method.

 

Ключевые слова: машинное обучение; разведочный анализ; предобработка.

Keywords: machine learning; exploratory data analysis; data preprocessing.

 

Современные телекоммуникационные компании сталкиваются с постоянным вызовом в сохранении и увеличении своей клиентской базы. Одним из наиболее серьезных препятствий на этом пути является явление оттока клиентов, которое представляет собой потерю клиентов, переходящих к конкурентам или прекращающих пользоваться услугами компании. В данной рассматривается методика прогнозирования оттока клиентов методами машинного обучения [1]. Постановка задачи: по данным из файла, включающим в себя информацию о клиентах телекоммуникационной компании, их демографических характеристиках, используемых услугах и истории оттока, спрогнозировать отток клиентов [2]. Использовались следующие программные средства: язык программирования Python, а также различны подключаемые библиотеки: pandas, numpy, matplotlib, seaborn и другие; среда для разработки и выполнения программного кода в облаке Google Colab*(По требованию Роскомнадзора информируем, что иностранное лицо, владеющее информационными ресурсами Google является нарушителем законодательства Российской Федерации – прим. ред.). Загружаем данные, выполняем разведочный анализ, разделяем их на обучающий и тестовый наборы, затем обучаем и оцениваем четыре модели машинного обучения: случайный лес, k-ближайших соседей, метод опорных векторов и логистическую регрессию:

# Предварительная обработка данных

data = data.drop(["customerID"], axis=1)

data["TotalCharges"] = pd.to_numeric(data["TotalCharges"], errors='coerce')

data = data.dropna()

# Преобразование категориальных переменных в фиктивные

data = pd.get_dummies(data)

# Разделить данные на X и y

X = data.drop("Churn_Yes", axis=1)

y = data["Churn_Yes"]

# Разделение данных на обучающие и тестовые наборы

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Рассмотрены четыре модели: случайный лес, k-ближайшие соседи, метод опорных векторов и логистическая регрессия (рис. 1).

 

Рисунок 1. Точность четырёх моделей

 

Загружаем данные, выполняем их предобработку (удаляем пропущенные значения и преобразуем категориальные признаки в числовые), разделяем данные на признаки и целевую переменную, а затем на обучающий и тестовый наборы. Далее обучаем две модели машинного обучения: случайный лес (Random Forest) и градиентный бустинг (Gradient Boosting). Наконец, оцениваем качество каждой модели на тестовом наборе данных с помощью метрики accuracy_score и выводим точность каждой модели (рис. 2).

 

Рисунок 2. Результат двух моделей

 

Выполним сравнительный анализ рассмотренных алгоритмов. В первом наборе кодов обучаются четыре различные модели: случайный лес, k-ближайших соседей, метод опорных векторов и логистическая регрессия. Каждая модель оценивается по точности с использованием метрики accuracy_score. Во втором наборе кодов обучаются только две модели: случайный лес и градиентный бустинг. Оба набора кодов используют одинаковую метрику оценки качества - accuracy_score, что обеспечивает сопоставимые результаты.

Результаты данной работы могут быть полезны для телекоммуникационных компаний в оптимизации своих маркетинговых и удерживающих стратегий, что в конечном итоге способствует повышению их конкурентоспособности и устойчивости на рынке.

 

Список литературы:

  1. Учебник по машинному обучению [Электронный ресурс]. URL:https://academy.yandex.ru/handbook/ml/article/linear-models.
  2. Набор данных по оттоку клиентов телекоммуникационной компании [Электронный ресурс] // Kaggle [сайт]. - URL: https://www.kaggle.com/datasets/blastchar/telco-customer-churn — Загл. с экрана. — Яз. Англ.
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий