Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: CXLVIII Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 07 апреля 2025 г.)

Наука: Технические науки

Секция: Технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Потапов М.А. ИСПОЛЬЗОВАНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ПРОГНОЗА ВЫЖИВАЕМОСТИ ПАЦИЕНТА С ЦИРРОЗОМ ПЕЧЕНИ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. CXLVIII междунар. студ. науч.-практ. конф. № 4(146). URL: https://sibac.info/archive/technic/4(146).pdf (дата обращения: 16.04.2025)
Проголосовать за статью
Идет голосование
Эта статья набрала 0 голосов (обновление каждые 15 минут)
Дипломы участников
Диплом Выбор редакционной коллегии

ИСПОЛЬЗОВАНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ПРОГНОЗА ВЫЖИВАЕМОСТИ ПАЦИЕНТА С ЦИРРОЗОМ ПЕЧЕНИ

Потапов Мирослав Андреевич

студент, кафедра математической теории упругости и биомеханики, Саратовский государственный университет имени Н. Г. Чернышевского,

РФ, г. Саратов

Донник Анна Михайловна

научный руководитель,

доцент, кафедра математической теории упругости и биомеханики, Саратовский государственный университет имени Н. Г. Чернышевского,

РФ, г. Саратов

PREDICTING SURVIVAL OF A PATIENT WITH CIRRHOSIS OF THE LIVER

 

Miroslav Potapov

Student, Department of Mathematic Theory of Elasticity and Biomechanics, Saratov National Research State University named after N. G. Chernyshevsky,

Russia, Saratov

Anna Donnik

Associate professor, Department of Mathematic Theory of Elasticity and Biomechanics, Saratov National Research State University named after N. G. Chernyshevsky,

Russia, Saratov

 

АННОТАЦИЯ

В статье рассматривается применение методов машинного обучения для прогнозирования выживаемости пациентов с циррозом печени. Проведен анализ различных моделей, таких как логистическая регрессия, случайный лес и метод опорных векторов. Оценка точности моделей осуществлялась с использованием метрик: точность (precision), полнота (recall) и F1-мера. Наилучшую точность показала модель - случайный лес. Выбранная модель может быть полезной для клинической практики, позволяя врачам делать прогнозы выживаемости для пациентов с циррозом печени.   

ABSTRACT

This article discusses machine learning methods for predicting the survival rate of patients with liver cirrhosis. Different models such as logistic regression, random forest and support vector method are analyzed. The accuracy of the models was evaluated using the metrics: precision (precision), completeness (recall) and F1-measure. The best accuracy was shown by the model - random forest. The selected model may be useful for clinical practice, allowing physicians to make survival predictions for patients with cirrhosis.

 

Ключевые слова: случайные леса, временные ряды, машинное обучение, линейная регрессия, цирроз печени.

Keywords: random forests, time series, machine learning, linear regression, cirrhosis of the liver.

 

ВВЕДЕНИЕ

Определение выживаемости пациентов с циррозом печени традиционно основывается на анализе клинических данных и результатов лабораторных исследований. Врачи оценивают различные показатели, такие как уровень билирубина, альбумина, протромбинное время и результаты других анализов, чтобы установить диагноз и прогнозировать исход заболевания. Этот процесс требует значительных временных затрат и зависит от человеческого фактора, что может приводить к вариативности в оценках и возможным ошибкам.

С развитием цифровых технологий и методов машинного обучения появилась возможность автоматизировать и улучшить процесс прогнозирования выживаемости. Модели, такие как логистическая регрессия, случайный лес и метод опорных векторов, могут анализировать большие объемы данных и выявлять сложные зависимости между переменными, которые могут быть неочевидны при ручной оценке [1].

Логистическая регрессия является линейным методом классификации, который эффективно оценивает вероятности принадлежности объектов к определённым классам. Этот метод применим для бинарной классификации и позволяет оценить вероятность выживания на основе большого множества факторов. Случайный лес, в свою очередь, использует ансамбль деревьев решений, что повышает точность предсказаний и снижает риск переобучения. Метод опорных векторов (SVM) способен находить оптимальные границы между классами, что особенно важно в случаях, когда данные имеют сложную структуру. Все перечисленные методы применимы к решению поставленной задачи.

Преимущества использования моделей машинного обучения включают в себя более быструю и точную оценку показателей, снижение влияния человеческого фактора и возможность обработки больших объемов данных. Это делает их мощным инструментом для поддержки принятия врачебных решений в клинической практике врачей и улучшения исходов лечения пациентов с циррозом печени.

Целью работы является нахождение наиболее точной модели, решающей задачу прогнозирования выживаемости пациентов с циррозом печени. Для достижения поставленной цели были поставлены следующие задачи:

  • Подготовить данные для обучения моделей.
  • Обучить модели на тренировочных данных.
  • Провести сравнительный анализ полученных результатов на тестовых данных.

Логистическая регрессия

Логистическая регрессия – это метод машинного обучения, применяемый для решения задач бинарной классификации, разделяющей данные на два класса. Её название происходит от использования логистической функции для прогнозирования вероятности принадлежности объекта к определенному классу.

Для работы модели логистической регрессии используется линейная комбинация входных признаков с их соответствующими весами, что определяет линейную гиперплоскость в пространстве признаков [2]. Затем этот результат проходит через логистическую функцию, которая преобразует линейную комбинацию в вероятность принадлежности объекта к определенному классу.

По сути, логистическая регрессия берет уравнение линейной регрессии и использует его в качестве параметра для сигмоидной функции. В математическом выражении это представляется следующим образом:

где y-бинарный выходной результат принадлежности к классу (1 или 0),  - вектор признаков, используемый для прогнозирования ,  - вероятность принадлежности объекта к классу 1 при заданных признаках ,  - коэффициенты модели, которые нужно определить в ходе обучения, чтобы достичь наилучшего соответствия данных,  - число Эйлера, используемое для преобразования линейной комбинации в вероятность.

Метод случайного леса

Метод случайного леса, или Random Forest, является одним из популярных алгоритмов машинного обучения, который основан на ансамбле решающих деревьев. Ансамбль в машинном обучении - это объединение нескольких базовых моделей для создания более мощной и устойчивой модели прогнозирования [3].

  1. Сущность метода случайного леса.

Цель Random Forest заключается в построении ансамбля деревьев решений, каждое из которых обучается на различном наборе данных и признаков. Каждое дерево строится независимо друг от друга.

  1. Формула для ансамбля.

Обобщенная формула для ансамбля случайного леса выглядит следующим образом:

,

где  - количество базовых моделей (деревьев) в случайном лесу,  - i-ая базовая модель (дерево решений),  - набор признаков объекта, для которого делается прогноз.

  1. Принятие решения.

В задачах классификации решение принимается путем голосования по большинству предсказаний всех деревьев. Например, если большинство деревьев относят объект к классу 'A', то и ансамбль примет решение отнести его к классу 'A'.

В задачах регрессии решение принимается путем усреднения предсказаний всех деревьев. Таким образом, получается более точный и устойчивый прогноз.

Метод опорных векторов

Метод опорных векторов (Support Vector Machine, SVM) является мощным алгоритмом машинного обучения для решения задач классификации. Он работает путем поиска оптимальной гиперплоскости, которая разделяет данные на два класса таким образом, чтобы максимизировать расстояние от этой гиперплоскости до ближайших точек обоих классов. Расстояние между этой гиперплоскостью и ближайшими точками обоих классов называется отступом [4].

Принцип работы SVM:

Поиск оптимальной гиперплоскости. SVM стремится найти такую гиперплоскость, которая максимально разделяет два класса данных и имеет максимальный отступ до ближайших точек (опорных векторов).

Опорные векторы. Опорные векторы - это точки данных, которые находятся ближе к гиперплоскости и играют ключевую роль в определении этой гиперплоскости [5].

Линейное уравнение гиперплоскости. Гиперплоскость в SVM описывается линейным уравнением вида:

,

где  - транспонированный вектор весов, перпендикулярный гиперплоскости и показывающий ориентацию гиперплоскости в пространстве признаков, x - вектор признаков объекта, b - смещение гиперплоскости в пространстве.

Преимущества SVM:

  1. SVM хорошо работает с линейно и нелинейно разделимыми данными благодаря использованию ядерных функций.
  2. Метод обладает хорошей обобщающей способностью и не склонен к переобучению.
  3. Способен работать с многомерными данными и имеет эффективные методы обучения.

Линейную функцию можно рассчитать для каждого объекта  по его вектору признаков. В зависимости от знака значения этой функции, объект будет отнесен к классу  или к классу . Если >0, объект относится к классу  , а если < 0, объект относится к классу .

Метод опорных векторов (SVM) применяет ядра (kernels) для преобразования пространства признаков объектов с целью эффективного и точного разделения их на классы. Ядро определяет функцию сходства между объектами в новом признаковом пространстве. Линейное ядро представляет собой простое скалярное произведение двух векторов признаков, в то время как нелинейное ядро - более сложная функция, которая способна улавливать более сложные зависимости в данных.

Метод SVM использует четыре основных типа ядер:

1.  Линейное ядро (Linearkernel). Это простое ядро, которое строит гиперплоскость для разделения линейно разделимых данных. Оно широко применяется в задачах с линейными структурами данных, вычисляя скалярное произведение между векторами признаков.

2. Полиномиальное ядро (Polynomialkernel). Это ядро вводит полиномиальную функцию в пространство признаков для разделения данных, которые не могут быть разделены линейно. Это пригодно для работы с нелинейными данными и структурами.

3. RBF-ядро (Radial Basis Functionkernel). Это одно из наиболее распространенных ядер, способное разделять нелинейно-разделимые данные. Оно создает радиально-симметричную границу принятия решений, что обеспечивает гибкость в выделении сложных паттернов в данных.

4. Сигмоидное ядро (Sigmoidkernel). Это ядро применяется для моделирования нейронных сетей и обработки нелинейных данных. Однако его эффективность не так высока, как у RBF-ядра.

Каждое ядро может быть настроено с определенными параметрами для улучшения производительности модели и адаптации к конкретным данным и задачам классификации [6].

Работа с данными

Целевая переменная — выживаемость пациента, которая определяется на основе различных клинических и лабораторных показателей. Информационную базу исследования составил набор данных, содержащий информацию о пациентах с циррозом печени, собранный из медицинских учреждений [7].

Рассматриваемый набор данных включает в себя сведения о состоянии здоровья и результатах лечения пациентов. Он состоит из нескольких сотен записей, каждая из которых содержит данные о конкретных пациентах, их диагнозах, анализах и других характеристиках.

Ниже описаны основные столбцы датасета:

  • Status – показывает статус человека (D умер, C выписан, CL трансплантация печени);
  • Drug – показывает какое лечение получали пациенты (placebo-контрольное средство, не имеющее терапевтического действия или D-penicillamine- противовоспалительный и иммуномодулирующий препарат);
  • Age – показывает возраст пациента;
  • Ascites – показывает скопление жидкости в брюшной полости (Y-да N-нет);
  • Hepatomegaly – показывает увеличение печени в размерах (Y-да N-нет);
  • Edema – показывает отек (Y-да, N-нет, S-присутствуют без осложнений);
  • Bilirubin – показывает количество билирубина.

Представленный набор данных можно использовать для анализа и прогнозирования выживаемости пациентов с циррозом печени, применяя методы машинного обучения, что может значительно улучшить клинические решения и подходы к лечению [8]. Применим методы машинного обучения для прогнозирования выживаемости пациентов с циррозом печени к данным из рассматриваемого датасета.

Реализация методов машинного обучения осуществлялась с использованием:

  • Язык программирования Python 3. 
  • Интегрированная среда разработки Python IDLE. 
  • Среда для разработки и выполнения программного кода на языке Python 3 в облаке GoogleColab [9] *(По требованию Роскомнадзора информируем, что иностранное лицо, владеющее информационными ресурсами Google является нарушителем законодательства Российской Федерации – прим. ред.).

Алгоритм построения моделей состоял из следующих этапов:

  • Чтение данных из источника;
  • Проведение разведочного анализа (изучение зависимостей между атрибутами);
  • Заполнение пропусков, удаление аномалий;
  • Подготовка данных для обучения (используем нормализацию данных и разделяем их на тренировочные и тестовые);
  • Обучение моделей.

Были построены три модели: логистическая регрессия, случайный лес и метод опорных векторов. Для оценки эффективности моделей сравнивались следующие метрики:

  • Точность (Precision) – доля истинно положительных результатов среди всех положительных предсказаний модели. Этот показатель важен, когда необходимо минимизировать количество ложноположительных результатов.
  • Полнота (Recall) – доля истинно положительных результатов среди всех фактических положительных случаев. Полнота важна в ситуациях, когда необходимо выявить как можно больше положительных случаев.
  • F1-мера – гармоническое среднее между точностью и полнотой, которое позволяет оценить баланс между этими двумя метриками.
  • Точность (Accuracy) – доля правильных предсказаний среди всех предсказаний модели.

Таблица 1

Результаты оценки моделей.

Название

модели

Точность

на обучающей выборке

Точность на тренировочной выборке

Точность

Ф-мера

Случайный лес

0.77

0.83

0.67

0.74

Метод опорных векторов

0.7

0.78

0.5

0.61

Логическая регрессия

0.65

0.65

0.56

0.6

 

Исходя из полученных результатов наилучшая модель - случайный лес с количеством деревьев равным 100, с базовым значением измерения качества разделения, глубины каждого дерева, с минимальным количеством выборок, равным 2, и значением минимальной взвешенной доли от общей суммы весов, равным 0.

 

Список литературы:

  1. Паттерны проектирования в Python [Электронный ресурс] // PythonPatterns [Электронный ресурс] [сайт]. - URL: https://pythonpatterns.com/ (дата обращения: 22.03.2024). — Загл. с экрана. — Яз. Англ.
  2. Руководство по работе с базами данных в Python [Электронный ресурс] // Python DB Guide [Электронный ресурс] [сайт]. - URL: https://pythondbguide.com/ (дата обращения: 25.03.2024). — Загл. с экрана. — Яз. Англ.
  3. Искусственный интеллект в Python: Применение в реальном мире / И. Петров. - Санкт-Петербург: Издательство "AI Press", 2021. — 200 с.
  4. Библиотека NumPy: Руководство пользователя [Электронный ресурс] // NumPyLibrary [Электронный ресурс] [сайт]. - URL: https://numpylibrary.com/user-guide/ (дата обращения: 30.03.2024). — Загл. с экрана. — Яз. Англ.
  5. Pandas: Работа с данными в Python [Электронный ресурс] // PandasLibrary [Электронный ресурс] [сайт]. - URL: https://pandaslibrary.com/data-handling/ (дата обращения: 10.04.2024). — Загл. с экрана. — Яз. Англ.
  6. Алгоритмы машинного обучения с Python / Д. Иванов. - Санкт-Петербург: Издательство "ML Books", 2023. — 300 с.
  7. Набор данных "Cirrhosis Patient Survival Prediction" [Электронный ресурс] // Kaggle [сайт]. - URL: https://www.kaggle.com/datasets/joebeachcapital/cirrhosis-patient-survival-prediction/data (дата обращения: 03.02.2025). — Загл. с экрана. — Яз. Англ.
  8. Болезни печени и желчевыводящих путей: Руководство для врачей/ Подред. В. Т. Ивашкина. – М.: ООО Издательский дом “М-Вести”, 2002.
  9. Бурневич Э.З., Лопаткина Т.Н. Первичный билиарный цирроз печени //гепатологический форум. Приложение к журналу «Клиническая фармакология итерапия». -2009, 1. С. 12-23.
Проголосовать за статью
Идет голосование
Эта статья набрала 0 голосов (обновление каждые 15 минут)
Дипломы участников
Диплом Выбор редакционной коллегии

Комментарии (1)

# Andrey Potapov 11.04.2025 18:20
Статья Потапова М.А. и Донник А.М. представляет собой актуальное и практически значимое исследование, посвященное применению методов машинного обучения для прогнозирования выживаемости пациентов с циррозом печени. Цирроз печени остается серьезным заболеванием с высокой летальностью, поэтому разработка точных прогностических моделей крайне важна для клинической практики. Было бы интересно узнать, какие именно признаки (например, уровень билирубина, возраст, наличие асцита) оказали наибольшее влияние на прогноз в модели случайного леса. В целом, работа выполнена на высоком уровне и вносит ценный вклад в развитие предиктивной аналитики в медицине. Результаты могут быть полезны не только для исследователей в области машинного обучения, но и для практикующих врачей, занимающихся лечением пациентов с циррозом печени. Желаю авторам дальнейших успехов в развитии этого важного направления!

Оставить комментарий