Статья опубликована в рамках: LIV Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 29 июня 2017 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Пинин А.А. МЕДИЦИНСКАЯ АНАЛИТИЧЕСКАЯ СИСТЕМА НА ОСНОВЕ DATA MINING // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. LIV междунар. студ. науч.-практ. конф. № 6(53). URL: https://sibac.info/archive/technic/6(53).pdf (дата обращения: 26.07.2026)

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

У данной статьи нет
дипломов

МЕДИЦИНСКАЯ АНАЛИТИЧЕСКАЯ СИСТЕМА НА ОСНОВЕ DATA MINING

Пинин Александр Александрович

студент 1 курса магистратуры, ИИТ ЧелГУ,

РФ, г. Челябинск

Митянина Анастасия Владимировна

научный руководитель,

преподаватель, ИИТ ЧелГУ,

РФ, г. Челябинск

Введение

Аналитические системы на основе Data Mining успешно применяются в медицине более 10 лет [11]. Они позволяют обрабатывать медицинские показатели пациентов в совокупности с сопутствующей информацией (возраст, пол, место жительства и т.д.) и извлекать скрытые закономерности. На основе полученных закономерностей можно ставить диагнозы, прогнозировать развитие болезней и многое другое.

Выполнение такой работы человеком не всегда рентабельно, поскольку анализ может оказаться трудоемким и требовать привлечения специалистов высокой квалификации. Кроме того, закономерности, скрытые в данных, не всегда могут быть обнаружены человеком. Частичная автоматизация процесса, которую обеспечивают аналитические системы, позволяет сократить время на выполнение анализа, а значит сделать его дешевле. Снижение цены благоприятно сказывается на распространении Data Mining, особенно в сфере коммерческой медицины.

Если рассматривать аналитические системы в качестве советчика при постановке диагноза, то можно сократить влияние человеческого фактора, и таким образом повысить качество поставленных диагнозов [10]. При этом ответственность и принятие решение все равно остается на квалифицированном специалисте, которому система позволят учесть больше факторов при принятии решения.

При всем положительном опыте использования следует обратить внимание что существующие системы, могут быть довольно универсальны [6; 7; 9], что может усложнять их использование для конкретных задач. Универсальная система позволяет решать более широкий круг задач, но не может учитывать специфику всех областей, в которых она будет применятся, или учитывает ее в малой степени. Такие системы решают поставленные задачи, но требуют больше времени специалиста для настройки под конкретные нужды. Кроме того, удобная настройка не всегда возможна.

При этом, если сфокусироваться на российской медицине, то применение таких систем часто осложнено организационными и финансовыми проблемами. Если рассматривать крупные системы мировых производителей, такие SPSS Modeler, Neural Designer, RapidMiner, то их цена довольно велика (от нескольких тысяч долларов в год) [6; 7; 9], и может быть недоступна для небольших муниципальных больниц и отделений. Нельзя не учитывать повторяющиеся инициативы отказа от иностранного ПО в пользу российского [1; 2; 3], что еще больше усложняет их приобретение муниципальными клиниками. В свою очередь открытые для бесплатного использования библиотеки (например, scikit-learn, TensorFlow, Pandas, и т. д.) для Data Mining на сегодняшний день при грамотном использовании позволяют достичь высоких результатов [11] без глубоких научных изысканий и программирования сложных систем. Однако для пользования такими библиотеками требуются дополнительные знания языков программирования таких как R или Python, что затрудняет подбор специалистов.

Таким образом создание простой и недорогой программной аналитической системы, которая дала бы доступ медицинским аналитикам к современным инструментам анализа данных определенно востребовано.

Связанные работы

Опыт применения различных инструментов Data Mining в медицине описан во многих исследованиях. Ниже приведены примеры нескольких исследований, на основании которых можно выбрать набор инструментов для применения в аналитической системе.

Предсказание сердечных заболеваний

Исследование проводилось специалистами Krishnammal College for Women (Индия) в 2010 году [8]. Для исследования был использован набор данных, который состоял из 3000 записей с 14 признаками и был разделен на тренировочный и тестовый в сочетании 70 / 30. Был использован инструмент для анализа данных Tanagra (Lumière University Lyon 2) и опробованы алгоритмы: Naïve Bayes, Decision List, KNN. Результаты приведены в таблице 1.

Таблица 1

Результаты исследования Krishnammal College for Women

№ п/п	Инструмент	Точность (%)	Время (мс)
1	Naïve Bayes	52,33	609
2	Decision List	52	719
3	KNN	45, 67	1000

Предсказание сердечных заболеваний

Исследование проводилось специалистами School of Computing Science and Engineering (Индия) в 2010 году [4]. Для исследования был использован набор данных который состоял из 909 записей с 13 признаками. Был использован инструмент для анализа данных Weka (University of Waikato) и опробованы алгоритмы: Naïve Bayes, Decision Tree, Classification via clustering. Результаты приведены в таблице 2.

Таблица 2

Результаты исследования School of Computing Science and Engineering

№ п/п	Инструмент	Точность (%)
1	Naïve Bayes	96,5
2	Decision Tree	99,2
3	Classification via clustering	88,3

Предсказание успешности искусственного оплодотворения

Исследование проводилось специалистами Bharathidasan University (Индия) в 2013 году [5]. Исследование проведено в три этапа. На первом этапе использована теория приближенных множеств, на втором - нейронная сеть с обратным распространением, на третьем - комбинация методов. На каждом этапе сравнивались результаты предсказания успешности или неудачи искусственного оплодотворения с фактическими данными, и получали средний показатель точности. В конце исследования показатели сравнили. Ниже приведены результаты сравнения:

Этап 1 - теория приближенных множеств. В таблице 3 приведено сравнение ожидаемых и полученных результатов.

Таблица 3

Исследование применения теории приближенных множеств Bharathidasan University

		Предсказание
		Успех	Неудача	Точность (%)
Факт	Успех	17	4	80.952
	Неудача	26	10	27.777
	Точность (%)	39.5349	71.4286	47.368

Этап 2 - нейронная сеть с обратным распространением. В таблице 4 приведены показатели ошибок, полученных по результатам сравнения предсказания и факта и процент корректного предсказания.

Таблица 4

Исследование применения нейронной сети Bharathidasan University

№ п/п	Показатели ошибки	Предсказание
№ п/п	Показатели ошибки	Неудача	Успех
1	MSE	0.209522132	0.212860733
2	NMSE	1.164459543	1.18301446
3	MAE	0.23114814	0.25780224
4	Min Abs Error	9.90854E-07	6.66044E-06
5	Max Abs Error	1.015785003	0.998857054
6	R	0.498099362	0.498099362
	Корректные результаты (%)	73.07692308	75

Этап 3 - комбинация теории приближенных множеств и нейронной сети с обратным распространением. В таблице 5 приведены показатели ошибок, полученных по результатам сравнения предсказания и факта и процент корректного предсказания.

Таблица 5

Исследование применения комбинации теории приближенных множеств и нейронной сети Bharathidasan University

№ п/п	Показатели ошибки	Предсказание
№ п/п	Показатели ошибки	Неудача	Успех
1	MSE	0.092835478	0.110601021
2	NMSE	0.378803726	0.451293836
3	MAE	0.14313612	0.191653959
4	Min Abs Error	0.002563409	0.005851654
5	Max Abs Error	1.055555499	1.055555556
6	R	0.789058201	0.789058201
	Корректные результаты (%)	89.23076923	91.83673469

В таблице 6 сведены общие показатели точности по этапам. Видно, что комбинация методов дает более высокий результат.

Таблица 6

Сравнение применения теории приближенных множеств, нейронной сети и комбинации этих методов Bharathidasan University

	Этап 1 - Теория приближенных множеств	Этап 2 - Нейронная сеть	Этап 3 - Комбинация
Точность в предсказании успеха (%)	47	73	90

Вывод:

На основании приведенных примеров, в исследовании будут опробованы следующие инструменты: Naïve Bayes, Decision Tree, KNN, Neural Network. При этом следует обратить внимание, что комбинация методов часто дает более точный результат.

Концепция аналитической системы

Как указано выше, в настоящее время, различные инструменты анализа данных доступны бесплатно и представлены в различных программных библиотеках. Создание простой аналитической системы, которая будет давать медицинским аналитикам доступ к этим библиотекам определенно востребовано.

Система должна иметь достаточно простой и расширяемый интерфейс для доступа к базе данных, в которой хранится вся информация. Расширяемость интерфейса может достигаться не инструментами в пользовательском интерфейсе, а понятным и доступным кодом, чтобы после передачи системы заказчику он мог расширить интерфейс (вводимые поля) своими силами. Система управления базами данных (СУБД) также должна выбираться с расчетом расширения.

Система должна иметь в своем составе инструменты Data Mining. При этом следует разделить часть системы, отвечающую за ввод данных и анализ данных. Это может быть реализовано в виде отдельных модулей, плагинов и т.п.

Система должна иметь возможность формировать графики и отчеты для отображения результатов исследования. Эту часть также нужно реализовать отдельным модулем в подсистеме анализа данных. Результаты анализа должны формироваться в универсальном виде, отображение не должно быть связано с генерацией. Общая схема системы представлена на рис. 1.

* п/с - подсистема

Рисунок 1. Общая схема системы.

Реализация системы удобна на основе фреймворка Django. Выбор фреймворка обоснован тем, что он является бесплатным и тем что при работе с ним используется язык программирования Python. Использование ЯП Python, в свою очередь, упрощает интеграцию библиотек для исследования данных широко представленных в Python. Для реализации инструментов Data Mining могут быть использованы библиотеки scikit-learn, TensorFlow, Pandas, NumPy, SciPy, matplotlib.

Набор данных для исследования алгоритмов Data Mining

Для формирования набора данных для исследования будет использована информация о пациентах собранная отделением челябинской больницы. Количество записей около 2000. Большая часть данных хранятся как формализованные признаки, такие как пол, возраст, медицинские показатели и т.д. Есть дополнительная неформализованная информация, о пациентах которая хранятся отдельно. Возможно, формализованные признаки будут дополнены из неформализованной информации.

Для работы в системе данные будут помещены в базу данных SQL. Перед началом исследования будут отобраны признаки, по которым будет выполнен анализ. Для анализа будут выбраны только те записи, в которых описаны все отобранные признаки. Этот этап можно считать очисткой данных. Дубликатов в системе нет.

Перед началом проверки инструментов Data Mining данные могут быть нормализованы и преобразованы в формат, подходящий для инструмента анализа.

Метод исследования алгоритмов Data Mining

Перед началом исследования будет определен набор признаков для исследования. Таким образом будет сформирован первоначальный набор данных. На следующем этапе набор данных будет очищен и нормализован.

Исследование будет представлять собой последовательное применением инструментов с разными параметрами к набору данных. Затем следует сравнить полученные результаты и выбрать наиболее подходящие инструменты, которые будут использованы на следующем этапе. Следующим этапом к тому же набору данных будут последовательно применены комбинации ранее отобранных инструментов. Затем следует сравнить полученные результаты. Инструмент или набор инструментов с лучшими результатами будет использован в системе.

Основной метрикой для сравнения результатов исследования будет F-мера. Применение F-меры позволяет учесть влияние точности и полноты классификатора на результаты работы. Скорость работы будет учитываться только при прочих равных показателях работы классификаторов.

Список литературы:

Постановление Правительства Российской Федерации от 16.11.2015 г. № 1236 «Об установлении запрета на допуск программного обеспечения, происходящего из иностранных государств, для целей осуществления закупок для обеспечения государственных и муниципальных нужд». // Сайт Правительства России [электронный ресурс] – Режим доступа. – URL: http://government.ru/docs/all/104296 (дата обращения 31.06.2017);
Приказ Минкомсвязи России от 01.04.2015 №96 «Об утверждении плана импортозамещения программного обеспечения». // Сайт Минкомсвязи России [электронный ресурс] – Режим доступа. – URL: http://minsvyaz.ru/ru/documents/4548 (дата обращения 31.06.2017);
Федеральный закон от 29.06.2015 г. № 188-ФЗ «О внесении изменений в Федеральный закон "Об информации, информационных технологиях и о защите информации" и статью 14 Федерального закона «О контрактной системе в сфере закупок товаров, работ, услуг для обеспечения государственных и муниципальных нужд». // Сайт Правительства России [электронный ресурс] – Режим доступа. – URL: http://government.ru/docs/all/102488 (дата обращения 31.06.2017);
Anbarasi M., Anupriya E., Iyengar N. Ch. S. N. Enhanced Prediction of Heart Disease with Feature Subset Selection using Genetic Algorithm // International Journal of Engineering Science and Technology. – 2010. – Vol. 2 № 10. – P. 5370-5376;
Durairaj M., Ranjani V. Data Mining Applications in Healthcare Sector: A Study // International Journal of Engineering Science and Technology. – 2013. – Vol. 2 № 10. – P. 29-35;
IBM SPSS Modeler сайт [электронный ресурс] – Режим доступа. – URL: https://www.ibm.com/bs-en/marketplace/spss-modeler (дата обращения 02.07.2017);
Neural Designer сайт [электронный ресурс] – Режим доступа. – URL: https://www.neuraldesigner.com (дата обращения 02.07.2017);
Rajkumar A., Reena G. S. Diagnosis of Heart Disease Using Datamining Algorithm // Global Journal of Computer Science and Technology. – 2010. – Vol. 10 № 10. – P.38-43;
RapidMiner сайт [электронный ресурс] – Режим доступа. – URL: https://rapidminer.com (дата обращения 02.07.2017);
Schurink C., Lucas P., Hoepelman I., Bonten M. Computer-assisted decision support for the diagnosis and treatment of infectious diseases in intensive care units // Lancet Infectious Diseases. – 2005. – Vol. 5 № 5. – P 305-312;
Tomar D., Agarwal S. A survey on Data Mining approaches for Healthcare // International Journal of Bio-Science and Bio-Technology. – 2013. – Vol. 5 № 5. – P. 241-266.