Статья опубликована в рамках: Научного журнала «Студенческий» № 18(356)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал
ПРОГНОЗИРОВАНИЕ САХАРНОГО ДИАБЕТА МЕТОДАМИ ОБУЧЕНИЯ С УЧИТЕЛЕМ: СРАВНИТЕЛЬНЫЙ АНАЛИЗ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ, KNN И СЛУЧАЙНОГО ЛЕСА
DIABETES PREDICTION USING SUPERVISED LEARNING: A COMPARATIVE ANALYSIS OF LOGISTIC REGRESSION, KNN AND RANDOM FOREST
Ivanovskaya Victoriya Eduardovna
Student, Department of Economic Informatics, Belarusian State University of Informatics and Radioelectronics,
Republic of Belarus, Minsk
Katсko Denis Eduardovich
Student, Department of Economic Informatics, Belarusian State University of Informatics and Radioelectronics,
Republic of Belarus, Minsk
Prischepova Polina Vladimirovna
Student, Department of Economic Informatics, Belarusian State University of Informatics and Radioelectronics,
Republic of Belarus, Minsk
Sokolovich Maxim Gennadyevich
Scientific supervisor, Assistant, Department of Economic Informatics, Belarusian State University of Informatics and Radioelectronics,
Republic of Belarus, Minsk
АННОТАЦИЯ
В работе выполнено сравнение трёх алгоритмов обучения с учителем — логистической регрессии, метода k ближайших соседей (k=5) и случайного леса (100 деревьев) — в задаче бинарной классификации сахарного диабета на датасете Pima Indians Diabetes Database (768 наблюдений, 8 признаков). После медианной импутации нулевых значений и Z-score стандартизации все три модели оценены по метрикам Accuracy, F1-score и AUC-ROC. Лучшие результаты показал случайный лес: Accuracy 77,92%, F1-score 66,00%, AUC-ROC 81,79%. Ключевыми предикторами являются концентрация глюкозы (27,4%) и индекс массы тела (16,2%).
ABSTRACT
This paper compares three supervised learning algorithms — logistic regression, k-nearest neighbours (k=5) and random forest (100 trees) — for binary diabetes classification on the Pima Indians Diabetes Database (768 records, 8 features). After median imputation of physiologically impossible zero values and Z-score standardisation, all models were evaluated on Accuracy, F1-score and AUC-ROC. Random forest achieved the best results: Accuracy 77.92%, F1-score 66.00%, AUC-ROC 81.79%. The most informative predictors were plasma glucose concentration (27.4%) and body mass index (16.2%).
Ключевые слова: машинное обучение; бинарная классификация; сахарный диабет; логистическая регрессия; KNN; случайный лес; AUC-ROC.
Keywords: machine learning; binary classification; diabetes; logistic regression; KNN; random forest; AUC-ROC.
Введение. Сахарный диабет остаётся одной из наиболее острых проблем здравоохранения: по данным ВОЗ, в мире насчитывается свыше 500 миллионов больных, и заболеваемость продолжает расти [1]. Раннее выявление группы риска позволяет существенно снизить вероятность осложнений. Применение алгоритмов машинного обучения для автоматической классификации пациентов приобретает высокую практическую значимость [2]. Цель работы — сравнить три алгоритма обучения с учителем в задаче прогнозирования сахарного диабета и определить наиболее эффективный подход.
1. Данные и предобработка. Исследование проводилось на датасете Pima Indians Diabetes Database: 768 записей, 8 числовых признаков (Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, BMI, DiabetesPedigreeFunction, Age), целевая переменная Outcome (1 — диабет, 0 — норма) [3]. Распределение классов: 500 записей (65,1%) — класс 0, 268 (34,9%) — класс 1; умеренный дисбаланс. Признаки Glucose, BloodPressure, SkinThickness, Insulin и BMI содержали физиологически невозможные нули, заменённые медианными значениями соответствующих столбцов [4]. Выборка разделена на обучающую (80%, 614 записей) и тестовую (20%, 154 записи) части методом стратифицированного разбиения. Все признаки нормализованы методом Z-score стандартизации.
2. Применяемые алгоритмы. Логистическая регрессия — линейный алгоритм бинарной классификации, оценивающий вероятность класса через сигмоидную функцию [5]. Отличается высокой интерпретируемостью; применялась с L2-регуляризацией (C=1,0). Метод k ближайших соседей (KNN, k=5) определяет класс мажоритарным голосованием k ближайших точек по евклидовой метрике [4]; чувствителен к масштабу, поэтому стандартизация обязательна. Случайный лес — ансамблевый метод из 100 деревьев решений на бутстрап-подвыборках с рандомизацией признаков [4]; устойчив к переобучению и позволяет оценить важность признаков через среднее снижение примеси Джини.
Результаты. Оценка проводилась по Accuracy, F1-score и AUC-ROC. F1-score и AUC-ROC выбраны с учётом дисбаланса классов, при котором Accuracy может давать завышенную оценку [5]. Результаты приведены в таблице 1 и на рисунках 1–3.
Таблица 1.
Метрики качества классификаторов на тестовой выборке (n=154)
|
Алгоритм |
Accuracy, % |
F1-score, % |
AUC-ROC, % |
|
Логистическая регрессия |
70,78 |
54,55 |
81,30 |
|
KNN (k=5) |
75,32 |
63,46 |
78,86 |
|
Случайный лес |
77,92 |
66,00 |
81,79 |
Случайный лес показал наилучшие результаты по совокупности метрик. Логистическая регрессия, несмотря на наименьший F1 (54,55%), продемонстрировала AUC-ROC 81,30% — сопоставимый со случайным лесом, что указывает на хорошую разделяющую способность при варьировании порога классификации. KNN занял промежуточное положение по Accuracy и F1, однако показал наименьший AUC-ROC (78,86%).

Рисунок 1. Сравнение метрик качества трёх классификаторов

Рисунок 2. ROC-кривые трёх классификаторов
Анализ важности признаков случайного леса (рисунок 3) выявил, что Glucose (27,4%) и BMI (16,2%) являются ключевыми предикторами, что соответствует клиническим данным о роли гипергликемии и избыточной массы тела в патогенезе сахарного диабета 2 типа [1]. На третьей позиции — функция родословной диабета DiabetesPedigreeFunction (12,5%).

Рисунок 3. Важность признаков (Random Forest, метрика Gini Impurity)
Случайный лес превосходит логистическую регрессию и KNN по совокупности метрик, что согласуется с результатами аналогичных работ [2, 3]. Логистическая регрессия предпочтительна при необходимости интерпретируемости модели. KNN показывает приемлемые результаты, однако требует тщательного подбора k. Перспективными направлениями являются: применение SMOTE для балансировки классов; оптимизация гиперпараметров (GridSearchCV); сравнение с градиентным бустингом (XGBoost, LightGBM) и нейросетевыми подходами.
Список литературы:
- Дедов И.И., Шестакова М.В., Майоров А.Ю. Алгоритмы специализированной медицинской помощи больным сахарным диабетом. — М. : ФГБУ «НМИЦ эндокринологии» Минздрава России, 2021. — 224 с.
- Бахтеев А.В., Фатеева Н.В. Применение методов машинного обучения в медицинской диагностике // Информатика и системы управления. — 2022. — № 3(73). — С. 45–53.
- Smith J.W., Everhart J.E., Dickson W.C. et al. Using the ADAP learning algorithm to forecast the onset of diabetes mellitus // Proc. Annual Symposium on Computer Application in Medical Care. — 1988. — P. 261–265.
- Флах П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных. — М. : ДМК Пресс, 2015. — 400 с.
- Зорич А.П., Пономарёв В.С. Оценка качества бинарных классификаторов в задачах медицинской диагностики // Искусственный интеллект и принятие решений. — 2023. — № 2. — С. 31–40.

