Телефон: 8-800-350-22-65
Напишите нам:
WhatsApp:
Telegram:
MAX:
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: Научного журнала «Студенческий» № 2(340)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6, скачать журнал часть 7

Библиографическое описание:
Алексеева Д.А. ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ВЫЯВЛЕНИЯ ПАЦИЕНТОВ С ВЫСОКИМ РИСКОМ РАЗВИТИЯ СЕРДЕЧНО-СОСУДИСТЫХ ЗАБОЛЕВАНИЙ // Студенческий: электрон. научн. журн. 2026. № 2(340). URL: https://sibac.info/journal/student/340/400622 (дата обращения: 27.01.2026).

ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ВЫЯВЛЕНИЯ ПАЦИЕНТОВ С ВЫСОКИМ РИСКОМ РАЗВИТИЯ СЕРДЕЧНО-СОСУДИСТЫХ ЗАБОЛЕВАНИЙ

Алексеева Дарья Анатольевна

студент, факультет информатики и вычислительной техники, Чувашский государственный университет имени И.Н. Ульянова,

РФ, г. Чебоксары

APPLICATION OF MACHINE LEARNING METHODS FOR DETECTING PATIENTS WITH A HIGH RISK OF DEVELOPING CARDIOVASCULAR DISEASES

 

Alexeeva Darya Anatolyevna

Student, Faculty of Computer Science and Engineering, Chuvash State University,

Russia, Cheboksary

 

АННОТАЦИЯ

В статье рассмотрены методы машинного обучения, применяемые для прогнозирования риска развития сердечно-сосудистых заболеваний. На их основе разработана модель, использующая алгоритм случайного леса. Предложенное решение позволяет автоматизировать процесс выявления пациентов высокого риска на основе клинических данных и повысить эффективность работы медицинских организаций.

ABSTRACT

The article discusses machine learning methods used to predict the risk of developing cardiovascular diseases. Based on these methods, a model using the random forest algorithm has been developed. The proposed solution allows for the automation of identifying high-risk patients based on clinical data and improves the efficiency of medical organizations.

 

Ключевые слова: искусственный интеллект, машинное обучение, сердечно-сосудистые заболевания, случайный лес, классификация.

Keywords: artificial intelligence, machine learning, cardiovascular diseases, random forest, classification.

 

В современном мире искусственный интеллект (ИИ) и машинное обучение стали ключевыми инструментами во многих сферах жизни общества, модифицируя подходы к решению сложных задач и открывая новые возможности для развития. Технологии ИИ демонстрируют свою эффективность, повышая точность, скорость и качество принимаемых решений. Особое внимание заслуживает применение ИИ в медицине, где они демонстрируют прямое воздействие на сохранение здоровья и благополучие людей.

Одной из самых острых медицинских проблем в современном обществе является борьба с сердечно-сосудистыми заболеваниями (ССЗ). По данным Всемирной организации здравоохранения (ВОЗ) сердечно-сосудистые заболевания остаются основной причиной смертности во всем мире.

Современная кардиология выделяет несколько ключевых факторов риска развития ССЗ. Основными и наиболее распространенными факторами риска сердечно-сосудистых заболеваний являются немодифицируемые (пол, возраст, генетические и этнические факторы) и модифицируемые (нарушения питания, ожирение, артериальная гипертензия, гиперлипидемия, курение, низкая физическая активность, злоупотребление алкоголем, сахарный диабет и другие) [1].

Традиционные методы диагностики и прогнозирования сердечно-сосудистых заболеваний предполагают собой инструментальные исследования, лабораторные анализы и клинические данные, которые обеспечивают комплексный подход к диагностике [2]. Применение методов машинного обучения для анализа медицинских данных открывает новые возможности в этом направлении. Алгоритмы способны обрабатывать большую базу медицинских данных и вычислять риск индивидуально, что упростит интерпретацию результатов, оптимизирует процесс профилактического наблюдения за пациентами групп риска и повысит эффективность работы медицинских учреждений [3].

Современные алгоритмы машинного обучения предоставляют мощный инструментарий для прогнозирования сердечно-сосудистых заболеваний, позволяя анализировать комплексные взаимосвязи между клиническими показателями и выявлять пациентов высокого риска. Рассмотрим некоторые из ключевых алгоритмов более подробно:

1) Ансамблевый алгоритм Random Forest (случайный лес) хорошо зарекомендовал себя при работе с табличными медицинскими данными. Он сочетает множество решающих деревьев, что обеспечивает высокую точность прогнозирования (85-90%) и устойчивость к переобучению.

2) Алгоритм логистической регрессии, несмотря на свою простоту, остается востребованным в медицинских исследованиях благодаря высокой интерпретируемости коэффициентов и возможности оценки вероятности заболевания. Модель логистической регрессии особенно полезна при работе с ограниченными наборами данных, где важна прозрачность результатов.

3) Метод опорных векторов (SVM) демонстрирует хорошие результаты при наличии четкой границы между классами, а его модификация - регрессия опорных векторов (SVR) - эффективна для количественной оценки степени риска.

4) Градиентный бустинг (XGBoost, LightGBM, CatBoost) представляет собой более современную альтернативу Random Forest, обеспечивающую сопоставимую или даже более высокую точность за счет последовательного создания деревьев решений.

5) Для анализа сложных медицинских данных, включающих изображения (ангиограммы, результаты УЗИ) или временные ряды (ЭКГ), применяются алгоритмы глубокого обучения. Сверточные нейронные сети (CNN) успешно выявляют паттерны на медицинских изображениях, а рекуррентные сети (RNN) и их модификации (LSTM, GRU) эффективны для анализа динамических показателей. Однако эти методы требуют значительных объемов данных для обучения и обладают меньшей интерпретируемостью.

6) Алгоритмы кластеризации (k-средних, иерархическая кластеризация) позволяют выделять группы пациентов со схожими профилями риска. Методы снижения размерности (PCA, t-SNE) помогают визуализировать многомерные медицинские данные и выявлять скрытые закономерности.

В рамках данной статьи был реализован алгоритм Random Forest для прогнозирования риска сердечно-сосудистых заболеваний.

Процесс обучения модели начинается с загрузки и предварительной обработки данных. Исходный датасет (набор данных), содержащий клинические параметры пациентов и соответствующие диагнозы, загружается из CSV-файла. Целевая переменная преобразуется в бинарный формат, где «1» соответствует наличию заболевания, а «0» - его отсутствию. Для обеспечения достоверности оценки качества модели данные разделяются на обучающую и тестовую выборки в соотношении 80:20 с фиксацией случайного состояния (random_state=42). Важным этапом предобработки данных является масштабирование всех числовых признаков с помощью StandardScaler, что позволяет привести различные по масштабу медицинские показатели к единому диапазону, улучшая тем самым качество работы алгоритма.

Модель была реализована с использованием класса RandomForestClassifier из библиотеки scikit-learn. Подобраны параметры алгоритма: количество деревьев в ансамбле (n_estimators) равно 100, максимальная глубина каждого дерева (max_depth) ограничена 5-ю уровнями, что предотвращает переобучение и обеспечивает хорошую обобщающую способность модели. Фиксация случайного состояния (random_state=42) позволяет получать идентичные результаты при повторных запусках. Обученная модель демонстрирует точность (accuracy) 0,87 на тестовой выборке, что свидетельствует о ее высокой прогностической способности.

Далее необходимо запустить приложение. Через HTML-форму получаем 13 клинических параметров, включая демографические данные (возраст, пол), физиологические показатели (артериальное давление, уровень холестерина), результаты обследований (ЭКГ, тест с физической нагрузкой) и специфические маркеры (депрессия сегмента ST, таллиевый тест). После получения данных осуществляется их предобработка - масштабирование с использованием сохраненного scaler и преобразование в формат, пригодный для подачи в модель. На этапе прогнозирования модель рассчитывает вероятность наличия заболевания (метод predict_proba), определяет бинарный результат (порог классификации установлен на уровне 0.5) и преобразует вероятность в процентный формат для наглядного представления результатов (рис. 1).

 

Рисунок 1. Результат оценки риска

 

Преимущество использования данного алгоритма заключаются в том, что случайный лес обеспечивает достаточно точные прогнозы, даже при работе с большими данными. Не стоит также забывать и об ограничениях данного метода: может потребоваться больше вычислительных мощностей, особенно при большом количестве деревьев [4].

Таким образом, применение методов машинного обучения, в частности алгоритма Random Forest, позволяет существенно повысить эффективность раннего выявления пациентов с высоким риском развития сердечно-сосудистых заболеваний.

 

Список литературы:

  1. Макаров К. С., Рудыко М. О. АНАЛИЗ РИСКОВ ЗАБОЛЕВАНИЙ СЕРДЕЧНО-СОСУДИСТОЙ СИСТЕМЫ С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИЙ БОЛЬШИХ ДАННЫХ // Auditorium. 2024. №2 (42). URL: https://cyberleninka.ru/article/n/analiz-riskov-zabolevaniy-serdechno-sosudistoy-sistemy-s-ispolzovaniem-tehnologiy-bolshih-dannyh
  2. Кривошеина Е.М., Середкина В.Э. Диагностика и прогнозирование сердечно-сосудистых заболеваний с применением технологий больших данных // Современные научные исследования и инновации. 2025. № 3 [Электронный ресурс]. URL: https://web.snauka.ru/issues/2025/03/103156
  3. Advanced machine learning techniques for cardiovascular disease early detection and diagnosis. URL: https://rdcu.be/etjYo
  4. Random Forest Algorithm in Machine Learning – GeeksforGeeks. URL: https://www.geeksforgeeks.org/machine-learning/random-forest-algorithm-in-machine-learning/

Оставить комментарий