Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: Научного журнала «Студенческий» № 5(5)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2

Библиографическое описание:
Григорьева И.А. ПОДСИСТЕМА АНАЛИЗА ДАННЫХ И МАШИННОГО ОБУЧЕНИЯ ДЛЯ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ СИСТЕМЫ ECOHEALTH // Студенческий: электрон. научн. журн. 2017. № 5(5). URL: https://sibac.info/journal/student/5/75629 (дата обращения: 25.04.2024).

ПОДСИСТЕМА АНАЛИЗА ДАННЫХ И МАШИННОГО ОБУЧЕНИЯ ДЛЯ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ СИСТЕМЫ ECOHEALTH

Григорьева Ирина Александровна

магистрант Астраханского государственного университета направления «Управление данными»,

РФ, г. Астрахань

Аннотация: в данной статье рассмотрены методы анализа данных и машинного обучения, реализованные в информационно-аналитической системе для корреляционного анализа данных с целью применения в сфере экологии и здравоохранения. Был проведен анализ существующих исследований в данной области, и сделаны необходимые расчёты коэффициента корреляции. Данные, использованные в исследовании, получены при помощи сервиса AirPaca и госпиталя Pasteur в период с января 2014 года по декабрь 2016 года.

Ключевые слова и фразы: язык R, Большие данные, корреляция, линейный коэффициент корреляции Пирсона, регрессионная модель, диспноэ, загрязнение воздуха.

 

1. Введение

Проведение исследований по оценке влияния окружающей среды на здоровье людей является важным инструментом для демонстрации необходимости принятия мер по улучшению качества воздуха и снижения негативного воздействия экологических факторов.

Существует большое количество работ, посвященных воздействию загрязнения воздуха на здоровье человека. Исследования в различных географических районах показали зависимость респираторных симптомов от состояний с долгосрочным воздействием общих взвешенных частиц (TSP) и SO2 [11, 13, 10, 6, 16, 23, 9], твердых частиц [14, 7, 1], черного дыма [8] и NO2 [18]. Кроме того, некоторые исследования госпитализаций и смертности указывают на связь краткосрочного и долгосрочного воздействия загрязнения воздуха с симптомами, присущими как легочным, так и сердечным заболеваниям [21, 3, 4, 24, 20, 15, 22, 5].

Таким образом, было принято решение провести подобное исследование в городе Ницце (Франция). В его основу легли данные о загрязнении воздуха в данном регионе, полученные при помощи сервиса AirPaca [2], предоставляющего показания датчиков в открытом доступе. Замеры атмосферного воздуха проводились в 6 районах: Contes 2, Aéroport de Nice, Nice Promenade des Anglais, Nice Arson, Peillon, Nice Ouest Botanique. Для получения сведений о пациентах, страдающих диспноэ, был использован архив госпиталя Pasteur (Ницца). Диспноэ (одышка) — нарушение частоты и глубины дыхания, сопровождающееся чувством нехватки воздуха.

Для обработки и хранения данных, использовавшихся при проведении этого исследования, была разработана информационно-аналитическая система с использованием подхода Большие данные (Big Data), что позволило повысить эффективность анализа данных.

Большие данные (Big Data) — это информационные технологии обработки различных структурированных и неструктурированных данных очень больших объёмов в условиях непрерывного роста объемов данных и распределения их по многочисленным узлам вычислительной сети [18].

Архитектура информационно-аналитической системы EcoHealth представлена на Рисунке 1.

 

Рисунок 1. Архитектура информационно-аналитической системы EcoHealth.

 

Статистический анализ данных был проведен с использованием языка R. R — это язык программирования с открытым исходным кодом, а также программная среда для статистических вычислений и графиков, поддерживаемая R Foundation [12]. Он позволяет группировать и фильтровать данные, автоматически вычислять коэффициенты корреляции, а также создавать необходимые графики для визуализации.

Для отображения результатов исследования было использовано реализованное при помощи языка Java веб-приложение, получающее данные анализа из базы и визуализирующее их в виде таблиц и графиков.

1. Методы корреляционного анализа данных системы

Описание данных, использованных для проведения статистического анализа, сведено в Таблицу 1 и Таблицу 2.

Таблица 1

Описание структуры данных о заболеваемости в городе Ницце за период с 2014 по 2016 гг.

Поле

Описание

Gender

Пол

Age

Возраст

Address

Адрес проживания

Postal code

Почтовый индекс

Ville

Город проживания

Admission

Дата обращения в лечебное учреждение

Sortie

Дата выписки

Examen

Дата проведения диагностических мероприятий

Categorie de Recours

Группа препаратов, которые были выписаны пациенту

Libelle de Recours

Код выписки

Code de Recours

Предварительный диагноз; код заболевания согласно МКБ-10 (Международной классификации болезней)

Libelle gravite

Код степени отягощенности пациента

Libelle CCMU

Код медицинского страхования

Destination Confirmee

Принимающее лечебное учреждение

Type de sortie

Код выписки из лечебного учреждения

Diag1 – diag10

Окончательный диагноз; код заболевания согласно МКБ-10

 

Таблица 2.

Описание структуры данных о загрязнении воздуха г. Ниццы за период с 2014 по 2016 гг.

Поле

Описание

Station

Название станции, где расположен сенсор измерения уровня загрязнения воздуха

Polluant

Химическая формула вещества

Mesure

Полное название химического вещества

Unité

Единицы измерения (µg/m3)

Date

Дата

Value

Объем содержания вещества в воздухе

 

Для расчетной меры зависимости между величинами использовался коэффициент линейной корреляции Пирсона. Он получается путем деления ковариации двух переменных на произведение их стандартных отклонений и рассчитывается по следующей формуле [19]:

 

где   — среднее значение выборок.

В языке R для вычисления данного коэффициента используется функция cor (пример ее применения представлен на Рис. 2). Для построения линейной регрессионной модели был реализован метод lm для соответствующих наборов данных.

 

Рисунок 2. Пример использования функции поиска коэффициента линейной корреляции на языке R.

 

Поиск корреляции проводился для следующих наборов данных:

· набор данных о пациентах и состоянии воздуха без применения фильтрации;

· набор данных о пациентах и состоянии воздуха с применением фильтрации по диагнозу (пациенты с заболеваниями легких);

· набор данных о пациентах и состоянии воздуха с применением фильтрации по диагнозу (пациенты с заболеваниями сердца);

· сгруппированные по 5 дней наборы данных о пациентах и состоянии воздуха (в этом случае учитывается наличие инкубационного периода у заболеваний, а также время воздействия вредных составляющих атмосферного воздуха).

 

1. Результаты анализа

В ходе вычислений были получены результаты, представленные в Таблицах 3-5.

Таблица 3.

Результаты для нефильтрованных данных

Набор данных 1

Набор данных 2

Коэффициент корреляции

Оксид азота (II)

Пациенты

0.1804087

Оксид азота (IV)

Пациенты

0.1012164

Оксид азота

Пациенты

0.1616413

Озон

Пациенты

-0.2199504

Частицы PM10

Пациенты

0.05497636

Частицы PM2,5

Пациенты

0.0786113

 

Таблица 4.

Результаты для данных, фильтрованных по диагнозу

Набор данных 1

Набор данных 2

Коэффициент корреляции

Оксид азота (II)

Пациенты (заболевания легких)

0.1719213

Оксид азота (IV)

Пациенты (заболевания легких)

0.08888615

Оксид азота

Пациенты (заболевания легких)

0.1535681

Озон

Пациенты (заболевания легких)

-0.2045952

Частицы PM10

Пациенты (заболевания легких)

0.06846391

Частицы PM2,5

Пациенты (заболевания легких)

0.0973422

Оксид азота (II)

Пациенты (заболевания сердца)

0.1060834

Оксид азота (IV)

Пациенты (заболевания сердца)

0.03138159

Оксид азота

Пациенты (заболевания сердца)

0.08371402

Озон

Пациенты (заболевания сердца)

-0.1386231

Частицы PM10

Пациенты (заболевания сердца)

-0.005957092

Частицы PM2,5

Пациенты (заболевания сердца)

0.002553244

 

Таблица 5.

Результаты для нефильтрованных данных

Набор данных 1

Набор данных 2

Коэффициент корреляции

Оксид азота (II)

Пациенты

0.36395

Оксид азота (IV)

Пациенты

0.2697953

Оксид азота

Пациенты

0.3613143

Озон

Пациенты

-0.371573

Частицы PM10

Пациенты

0.1243245

Частицы PM2,5

∆Пациенты

0.1249298

 

Таким образом, наибольшее значение коэффициента корреляции с набором данных о пациентах имеет оксид азота, но оно недостаточно для утверждения существования корреляции данного вещества с ростом количества пациентов. Связь соответствующих наборов данных представлена на Рисунке 3.

 

Рисунок 3. Зависимость роста количества пациентов от количества оксида азота в воздухе.

 

Для визуализации связи количества оксида азота в воздухе и количества пациентов с нарушениями дыхания была построена линейная регрессионная модель. Диаграмма разброса данных представлена на Рисунке 4.

 

Рисунок 4. Диаграмма разброса данных о количестве оксида азота в воздухе и данных о количестве пациентов с нарушениями дыхания, сгруппированных по 5 дней.

 

Результаты анализа были сохранены в базу данных OracleSQL при помощи пакета RJDBC для дальнейшего отображения в веб-приложении. Построение графиков в приложении реализовано с использованием библиотеки Primefaces 5.0 [17]. Примеры пользовательского интерфейса представлены на Рисунках 5 и 6.

 

Рисунок 5. Пример интерфейса для отображения графиков в веб-приложении.

 

Рисунок 6. Пример интерфейса для отображения результатов вычисления корреляционного коэффициента в веб-приложении.

 

1. Выводы

Анализ представленных данных не доказал существование линейной корреляции между загрязнением воздуха в Ницце и количеством пациентов с нарушениями дыхания.

Однако, так как наибольший коэффициент наблюдается для оксида азота, необходимо продолжить исследование по поиску взаимосвязи количества пациентов с количеством данного вещества в воздухе, используя другие методы и средства машинного обучения.

Предложено разработать алгоритмы на языке R, позволяющие определять факторы риска для людей с нарушениями дыхания для будущей классификации пациента и составления индивидуальных рекомендаций.

 

Список литературы:

  1. Abbey D., Hwang B., Burchette R. Estimated long term ambient concentrations of PM10 and development of respiratory symptoms in a nonsmoking population / D. Abbey, B. Hwang, R. Burchette // Arch. Environ. Health. — 1995. — P. 139-150.
  2. AirPaca. Association de surveillance de la qualité de l'air agréée par le ministère de l'environnement. Available at: http: http://www.airpaca.org/ (accessed 29, 04, 2017).
  3. Air pollution and daily mortality in Erfurt, East Germany, 1980-1989 / C. Spix, J. Heinrich, D. Dockery  et al. // Environ. Health Perspect. — 1993. — P. 518-526.
  4. An association between air pollution and mortality in six U.S. cities / D. Dockery, A. Pope, X. Xu et al. // Engl. J. Med. — 1993. — P. 1753-1759.
  5. Burnett R., Dales R., Krewski D. Associations between ambient particulate sulfate and admissions to Ontario Hospitals for cardiac and respiratory diseases / R. Burnett, R. Dales, D. Krewski // Am. J. Epidemiol. — 1995. — P. 15-22.
  6. Chronic obstructive pulmonary disease symptom effects of long term cumulative exposure to ambient levels of total suspended particulates and sulfur dioxide in California Seventh-Day Adventist residents / G. Euler, D. Abbey, A. Magie, J. Hodlkin // Arch. Environ. Health. — 1983. — P. 213-222.
  7. Chronic respiratory symptoms associated with estimated long-term ambient concentrations of fine particulates less than 2.5 microns in aerodynamic diameter (PM2.5) and other air pollutants / D. Abbey, B. Ostro, F. Petersen, R. Burchette // Exp. Anal. Environ. Epidemiol. — 1995. — P. 137-159.
  8. Effect of ambient levels of smoke and sulphur dioxide on the health of a national sample of 23-year-old subjects in 1981 / J. Scarlett, J. Griffiths, D. Strachan, H. Anderson // Thorax. — 1995. — P. 764-768.
  9. Forsberg В., Stjernberg N., Wall S. Prevalence of respiratory and hyperreactivity symptoms in relation to levels of criteria air pollutants in Sweden / B. Forsberg, N. Stjernberg, S. Wall // Eur. J. Public Health. — 1997. — P. 291-296.
  10. Health effects of air pollution due to coal combustion in the Chestnut Ridge region of Pennsylvania: results of cross-sectional analysis in adults / M. Schenker, J. Samet, F. Speizer et al. // Arch. Environ. Health. — 1983. — P. 325-330.
  11. Holland W., Reid D. The urban factor in chronic bronchitis / W. Holland, D. Reid // Lancet. — 1965. — P. 445-448.
  12. Hornik К. R FAQ / K. Hornik // The Comprehensive R Archive Network. — 2015.
  13. Lelouche J. Pollution atmosphérique et affections respiratoires chroniques ou à répétition/ J. Lelouche // PAARC: Groupe Cooperative. — 1982. —P. 87-116.
  14. Long-term ambient concentrations of particulates and oxidants and development of chronic disease in a cohort of nonsmoking California residents / D. Abbey, M. Lebowitz, P. Mills et al. // Inhal. Toxicol. — 1995. — P. 21-34.
  15. Pope А., Thun M. Particulate air pollution as a predictor of mortality in a prospective study of U. S. adults / A. Pope, M. Thun// Respir. Crit. Care Med. — 1995. — P. 669-674.
  16. Portney Р., Mullahy J. Urban air quality and respiratory disease / P. Portney, J. Mullahy // Reg. Sci. Urban Econ. — 1990. — P. 407-418.
  17. Primefaces Available at: https://www.primefaces.org/(accessed 29, 04, 2017).
  18. Preimesberger С. Hadoop, Yahoo, 'Big Data' Brighten BI Future / C. Preimesberger // EWeek. — 2011. — P. 11-17.
  19. Rodgers J. Thirteen ways to look at the correlation coefficient / J. Rodgers // The American Statistician. — 1988. — P. 59-66.
  20. Schwartz J. Air pollution and daily mortality: a review and meta-analysis / J. Schwartz // Environ. Res. — 1994. — P. 36-52.
  21. Schwartz J., Dockery D. Increased mortality in Philadelphia associated with daily air pollution concentrations / J. Schwartz, D. Dockery // Eur. Respir. — 1994. — P. 954-960.
  22. Schwartz J., Morris R. Air pollution and hospital admissions for cardiovascular disease in Detroit, Michigan / J. Schwartz, R. Morris // Am. J. Epidemiol. — 1995. — P. 23-25.
  23. Schwartz J.  Particulate air pollution and chronic respiratory disease / J. Schwartz // Environ. Res. — 1993. — P. 7-13.
  24. Short-term effects of air pollution on daily mortality in Athens — a time-series analysis / G. Touloumi, S. Pocock, K. Katsouyanni, D. Trichopoulos // Int. J. Epidemiol. — 1994. — P. 957-967.

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.