Статья опубликована в рамках: Научного журнала «Студенческий» № 8(304)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4
ИСПОЛЬЗОВАНИЕ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ И ROC-АНАЛИЗА ДЛЯ ПРОГНОЗИРОВАНИЯ КЛЮЧЕВОГО ДЕЙСТВИЯ ПОЛЬЗОВАТЕЛЕЙ В МОБИЛЬНОМ ПРИЛОЖЕНИИ
USING LOGISTIC REGRESSION AND ROC ANALYSIS TO PREDICT KEY USER ACTIONS IN A MOBILE APPLICATION
Artem Sukhanov
student, Department of Information Systems and Applied Informatics, Rostov State University of Economics
Russia, Rostov-on-Don
Tatiana Sinyavskaya
scientific supervisor, candidate of Sciences in Economics, associate professor, Rostov State University of Economics
Russia, Rostov-on-Don
АННОТАЦИЯ
В данном исследовании используются логистическая регрессия и ROC-анализ для выявления факторов, прогнозирующих статус подписки в приложении для изучения английского языка. Проведена оценка модели, проинтерпретированы полученные результаты.
ABSTRACT
This study uses logistic regression and ROC analysis to identify factors predicting subscription status in an English language learning app. The model was estimated, and the results were interpreted.
Ключевые слова: мобильное приложение; подписка; логистическая регрессия; ROC-анализ; моделирование.
Keywords: mobile application; subscription; logistic regression; ROC analysis; forecasting.
Цифровые приложения испытывают значительный рост в последние годы, а их бизнес-модели всё чаще опираются на доходы от подписок [2]. Понимание факторов, влияющих на решения пользователей оформить подписку, является критически важным для разработчиков приложений, стремящихся оптимизировать свои продуктовые предложения и маркетинговые стратегии.
Целью данного исследования была разработка прогностической модели для статуса подписки на основе данных пользователей мобильного приложения для изучения английского языка.
Набор данных состоял из 10 209 пользователей приложения, при этом полные данные были доступны для 2 885 пользователей. Из них 1832 не покупали подписку (63,5%) и 1053 купили (36,5%). Зависимой переменной выступал статус подписки, закодированный как бинарный исход (0 — подписка отсутствует, 1 — подписка присутствует).
В анализ были включены следующие предикторные переменные:
- Возрастные группы: 0-25 лет, 26-35 лет и старше 35 лет;
- Локальные уведомления - включены или отключены;
- Тренировка «произношение» - используется или нет;
- Push-уведомления - включены или отключены;
- Ответ на вопрос «для вас новые слова самое сложное в английском?» - да или нет;
- Количество завершенных пользователем уроков;
- Количество дней фактического использования приложения пользователем;
- Суммарное количество изученных пользователем слов и фраз.
Для моделирования вероятности наличия подписки применён один из наиболее распространённых методов анализа данных – логистическая регрессия, которая используется для описания взаимосвязей между переменными. Идея метода логистической регрессии заключается в том, что условное пространство исходных значений зависимой переменной разделяется границей на две и более соответствующих классам области посредством математического метода максимального правдоподобия — данные разделяются с наибольшей вероятностью принадлежности исходного значения к определённому классу [1].
Качество модели оценивалось с помощью статистики хи-квадрат, показателей псевдо-коэффициентов детерминации (R-квадрат Кокса и Снелла, R-квадрат Нэйджелкерка), а также ROC-анализа и анализа таблиц сопряженности. Интерпретация влияния независимых переменных на вероятность подписки производилась на основе значений коэффициентов отношения шансов.
Построенная модель логистической регрессии являлась статистически значимой на высоком уровне (χ2=799,8; p<0,001). Значение псевдо-коэффициента детерминации R-квадрат Нэйджелкерка составило 0,331, что свидетельствует о хорошей объясняющей способности модели. Процент верно предсказанных моделью значений зависимой переменной составил 77,5%.
Результаты ROC-анализа также подтвердили высокое качество модели: площадь под ROC-кривой (AUC) составила 0,832 (95% доверительный интервал: 0,817-0,847, p < 0,001), что указывает на хорошую способность модели различать пользователей с подпиской и без неё.
В таблице 1 представлены результаты оценки коэффициентов логистической регрессии для включенных в модель независимых переменных.
Таблица 1
Результаты оценки модели логистической регрессии для склонности пользователей к совершению подписки
Факторы, влияющие на совершение целевого действия (1) |
Коэффициент регрессии (2) |
Отношение шансов |
---|---|---|
Возраст младше 26 лет (старше 35 лет) |
0,60* (0,104) |
1,062 |
Возраст 26-35 лет (старше 35 лет) |
0,322*** (0,115) |
1,380 |
Новые слова самое сложное в английском? (Нет) |
-0,575**** (0,160) |
0,563 |
Количество завершенных уроков |
0,096**** (0,014) |
1,100 |
Push уведомления (Нет) |
0,446 (0,252)** |
1,562 |
Локальные уведомления (Нет) |
-0,691**** (0,233) |
0,501 |
Тренировка «Произношение» (Нет) |
-2,545**** (0,733) |
0,079 |
Количество дней фактического использования с даты первого запуска |
-0,698**** (0,061) |
0,498 |
Количество выученных слов и фраз |
-0,030**** (0,008) |
0,970 |
Константа |
1,328**** (0,186) |
3,772 |
χ2 |
799,775*** |
|
R-квадрат Кокса и Снелла |
0,242 |
|
R-квадрат Нэйджелкерка |
0,331 |
|
Число наблюдений |
2885 |
1) В скобках указаны эталонные категории.
2) В скобках указаны значения стандартных ошибок. Значимость на уровне: **** p < 0,01; *** p < 0,05; ** p < 0,1; * p > 0,1.
Анализ выявил несколько значимых предикторов статуса подписки.
- Тренировка «произношение». Пользователи, не использовавшие тренировку произношения, значительно реже имели подписку (ОШ = 0,079, p = 0,001), что указывает на то, что пользователи, взаимодействующие с функциями произношения, примерно в 12,7 раз чаще оформляют подписку.
- Локальные уведомления. Пользователи, отключившие локальные уведомления, примерно вдвое реже оформляли подписку (ОШ = 0,501, p = 0,003) по сравнению с теми, кто их включил.
- Возраст. Пользователи в возрастной группе 26-35 лет в 1,38 раза чаще оформляли подписку по сравнению с референтной группой (36+ лет), с значимым эффектом (p = 0,005).
- Сложность новых слов. Пользователи, не указавшие новые слова как самый сложный аспект английского языка, реже оформляли подписку (ОШ = 0,563, p < 0,001).
- Показатели вовлеченности:
- Каждый дополнительный завершенный урок увеличивал шансы подписки на 10% (ОШ = 1,100, p < 0,001);
- Большее количество дней фактического использования было связано с меньшей вероятностью подписки (ОШ = 0,498, p < 0,001);
- Каждый дополнительный изученный элемент словарного запаса немного снижал шансы подписки (ОШ = 0,970, p < 0,001).
Тот факт, что тренировка «произношение» оказывает сильное влияние на склонность к подписке позволяет предположить, что пользователи видят большую ценность в практике произношения, нежели в текстовых методах обучения.
Отрицательная связь между днями использования приложения и вероятностью подписки может указывать на то, что пользователи извлекают достаточную пользу от бесплатной версии приложения. Альтернативно, можно предположить, что пользователи, высоко ценящие приложение, покупают подписку на более ранних этапах использования приложения.
Данное исследование демонстрирует полезность логистической регрессии и ROC-анализа в прогнозировании статуса подписки в мобильном приложении. Модель достигла хорошей дискриминационной способности с AUC 0,832 и выявила несколько значимых предикторов, включая использование тренировки «произношение», настройки уведомлений, возраст пользователя и показатели вовлеченности.
Список литературы:
- Лучинин А.С., Лянгузов А.В. Модель логистической регрессии для прогнозирования летальности в отделении интенсивной терапии: проблемы и решения. Качественная клиническая практика. 2022;(2):13-20.
- Полное руководство по мобильным измерениям и маркетинговой аналитике для подписочных приложений [Электронный ресурс]. – Режим доступа: https://www.appsflyer.com/ru/resources/guides/measurement-analytics-subscription-apps/ (дата обращения: 28.02.25)
Оставить комментарий