Статья опубликована в рамках: Научного журнала «Студенческий» № 26(322)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): Сборник статей конференции, скачать журнал часть 2, скачать журнал часть 3
НЕЙРОСЕТЕВАЯ СИСТЕМА ПРОГНОЗИРОВАНИЯ ПРИГОДНОСТИ ВОДЫ К УПОТРЕБЛЕНИЮ
NEURAL NETWORK SYSTEM FOR PREDICTING THE SUITABILITY OF WATER FOR CONSUMPTION
Sharafutdinov Daniil Albertovich
Student, Department of Informational Technology in Business, Perm branch of the National Research University Higher School of Economics,
Russia, Perm
АННОТАЦИЯ
В статье рассматривается процесс создания нейросетевой модели, предназначенной для оценки качества питьевой воды посредством анализа её физико-химических свойств. Разработанная система способна с высокой степенью точности определить, можно ли использовать конкретный образец воды для питья, основываясь на таких показателях, как уровень кислотности (pH), степень жёсткости, содержание хлора и ряд других параметров.
ABSTRACT
The article discusses the process of creating a neural network model designed to assess the quality of drinking water by analyzing its physico-chemical properties. The developed system is able to determine with a high degree of accuracy whether a specific sample of water can be used for drinking, based on such indicators as the level of acidity (pH), degree of hardness, chlorine content and a number of other parameters.
Ключевые слова: нейросетевые технологии, прогнозирование, качество воды.
Keywords: neural network technologies, forecasting, water quality.
Введение.
Состояние питьевой воды оказывает существенное влияние как на здоровье населения, так и на экологическую стабильность окружающей среды. По информации ВОЗ, примерно два миллиарда жителей планеты сталкиваются с нехваткой чистой и безопасной воды для повседневного потребления. [3] Это подчеркивает необходимость разработки эффективных инструментов мониторинга и прогнозирования качества воды.
Качество воды определяет и качество жизни человека. Оно должно удовлетворять определенным нормам, зафиксированным в отечественных ГОСТ 2874- 82 [4], СанПиН 2.1.4.10749-01 «Питьевая вода. Гигиенические требования к качеству воды» [5] и в международных рекомендациях Всемирной организации здравоохранения (ВОЗ) «Руководство по контролю качества питьевой воды 1992 г.» [3]. Повышенное содержание нетоксичных солей или присутствие органических, биологических и неорганических загрязнений в количествах, превышающих указанные в данных нормах, приводит к появлению различных заболеваний.
Современные технологии анализа данных, включая машинное обучение и нейросетевые подходы, дают возможность обрабатывать большие объемы информации и выявлять скрытые закономерности в данных. На пример исследование [9] показывает, что обученные нейронные сети могут довольно точно решать задачи оценки качества воды.
Целью данной работы является разработка и обучение модели прогнозирования на основе машинного обучения, которая позволит с высокой точностью определять, является ли вода пригодной для питья. На основе анализа входных данных предполагается выявить наиболее значимые параметры, влияющие на качество воды, а также провести исследование зависимостей между этими параметрами.
Прогнозирование качества воды имеет широкий спектр применения: от мониторинга состояния водных источников до оптимизации работы очистных сооружений. Разработанная модель может быть полезна как для исследователей в области экологии, так и для специалистов, занимающихся управлением водными ресурсами.
Постановка задачи и формирование DataSet.
В данной работе для прогнозирования качества воды используется набор данных «Water Quality», доступный на платформе Kaggle [1].
Dataset имеет следующие входные параметры:
- X1: pH — уровень кислотности воды;
- X2: Hardness — общая жесткость воды;
- X3: Solids — концентрация твердых веществ (мг/л);
- X4: Chloramines — уровень хлораминов;
- X5: Sulfate — концентрация сульфатов (мг/л);
- X6: Conductivity — электрическая проводимость воды;
- X7: Organic_carbon — содержание органического углерода (мг/л);
- X8: Trihalomethanes — уровень тригалометанов (мг/л);
- X9: Turbidity — мутность воды (NTU);
Целевым признаком является D1: Potability, который показывает, пригодна ли вода для питья (1 — пригодна, 0 — непригодна).
В первую очередь необходимо избавится от выбросов методом Л. Н Ясницкого. Для этого необходимо в программу «Нейросимулятор 5» [6,8] загрузить весь набор данных в качестве обучающего множества. На этапе проектирования во входном слое ставим 9 нейронов, на скрытом слое 4, функция активации – тангенс гиперболический. На выходе будет 1 нейрон, а функция активации линейная. Далее проведём обучение модели в программе «Нейросимулятор 5».
После обучения модели вычислим значения ошибки обучения для каждого из примеров. Далее загружаем полученные данные в Excel и удаляем все строки, где ошибка больше 0,7. Объем очищенного и подготовленного датасета составил 1423 записи. Данные были случайным образом перемешаны и распределены на три подмножества: обучающее (70%), валидационное (20%) и тестовое (10%). Таким образом, обучающее множество включало 995 наблюдений, валидационное — 285, а тестовое — 143 записи.
Проектирование, обучение и тестирование нейросети.
Разработка, обучение и последующее тестирование искусственной нейронной сети проводились в программной среде «Нейросимулятор 5» с использованием методических подходов Л. Н. Ясницкого. В результате оптимизации была сформирована модель многослойного персептрона, состоящая из 9 входных узлов, одного нейрона на выходе и скрытого слоя, включающего 4 нейрона.
Для обучения использовались 995 примеров из обучающей выборки, а для проверки валидации — 285 примеров. Оценка эффективности построенной архитектуры проводилась на независимом тестовом наборе, содержащем 143 записи. Среднее значение ошибки на этапе тестирования составило 13%, что можно трактовать как удовлетворительный показатель качества модели. На рисунке 2 представлена гистограмма, демонстрирующая расхождение между фактическими и прогнозируемыми значениями. Визуализировано 20 примеров из тестовой выборки. На основании полученных данных можно утверждать, что функционирование нейросети соответствует поставленной задаче.
Рисунок 1. Результат тестирования нейронной сети в «Нейросимулятор 5»
Коэффициент детерминации R2 составил 0,89.
Также нейросетевая модель была построена в Google Colab *(По требованию Роскомнадзора информируем, что иностранное лицо, владеющее информационными ресурсами Google является нарушителем законодательства Российской Федерации – прим. ред.) на языке программирования Python с использованием библиотеки Keras [7]. Гиперпараметры были взяты как в программе «Нейросимулятор 5» за исключением функции активации. В «Нейросимулятор 5» была выбрана функция активации – гиперболический тангенс, а в Keras была использована Relu.
Рисунок 2. Результат тестирования нейронной сети в Keras
Коэффициент детерминации R2 составил 0.87, средняя абсолютная ошибка равна 0.06, медианная абсолютная ошибка равна 0.003, среднеквадратичная ошибка MSE равна 0.028, а RMSE - 0.167.
Исследование предметной области.
Оценка значимости параметров выполнена с помощью программы «Нейросимулятор 5». В результате наиболее значимыми параметрами на обучающем множестве являются количестве сульфатов, ph и жёсткость. (рис. 3).
Рисунок 3. Значимость входных параметров нейросетевой модели на обучающем множестве.
Далее проведено исследование полученных зависимостей между самыми значимыми входными параметрами и вероятность пригодности воды для питья. Самый значимый параметр — это количество сульфатов. Для исследования были выбраны два случайных примера (табл.1). Первый пример воды, пригодной для употребления, со значением количества сульфатов в ней 276,27. Второй пример воды, не пригодной к употреблению, с количеством сульфатов в ней 414,85. Изменяю значения параметра количества сульфатов от 100 до 500 с шагом 100, остальные значения параметров оставляю без изменений. Чёрным цветом отмечены реальные значения сульфатов (рис. 4).
Таблица 1а.
Параметры примеров воды с различной концентрацией сульфатов (часть 1)
ph |
Hardness |
Solids |
Chloramines |
Sulfate |
8,75 |
218,63 |
21752,03 |
6,45 |
276,27 |
7,48 |
117,05 |
28357,94 |
4,7 |
414,85 |
Таблица 1б.
Параметры примеров воды с различной концентрацией сульфатов (часть 2)
Conductivity |
Organic_carbon |
Trihalomethanes |
Turbidity |
356,07 |
15,71 |
67,04 |
2,94 |
472,05 |
18,34 |
76,34 |
3,71 |
Нейросеть прогнозирует уменьшение вероятности пригодности воды к употреблению, что соответствует действительности.
Рисунок 4. Зависимость пригодности воды к употреблению от количества сульфатов
Также, одним из самых важных параметров, является жёсткость воды. Для исследования зависимостей также были отобраны два случайных примера (табл. 2). Первый пример воды, пригодной для употребления, со значением жёсткости в 142,14 ppm, а второй пример воды, не пригодной к употреблению, со значением жёсткости в 411,77 ppm. Изменяю значения параметра жёсткости от 100 до 450, остальные значения параметров оставляю без изменений.
Таблица 2а.
Параметры примеров воды с различной жёсткостью (часть 1)
ph |
Hardness |
Solids |
Chloramines |
Sulfate |
8,65 |
142,14 |
15901,29 |
6,51 |
119,21 |
7,422 |
411,77 |
40148,12 |
5,6 |
256,59 |
Таблица 2б.
Параметры примеров воды с различной жёсткостью (часть 2)
Conductivity |
Organic_carbon |
Trihalomethanes |
Turbidity |
444,84 |
14,65 |
49,51 |
3,26 |
401,77 |
9,02 |
53,01 |
4,48 |
Нейросеть прогнозирует, что с повышением жёсткости воды, вероятность её пригодности к питью уменьшается, что соответствует реальности (рис. 5).
Рисунок 5. Зависимость пригодности воды к употреблению от жёсткости
Заключение.
По итогам проведённой работы была разработана нейросетевая система, предназначенная для предсказания пригодности воды к употреблению, основанная на анализе её физико-химических характеристик.
Сконструированная модель учитывает девять ключевых входных признаков, среди которых: уровень кислотности (pH), степень жёсткости, содержание сульфатов, показатель мутности и ряд других параметров. С применением подхода сценарного анализа были построены графики, отражающие, как изменения наиболее значимых входных данных влияют на вероятность признания воды пригодной для питья. Наибольшее влияние на итоговую оценку оказывают три характеристики — концентрация сульфатов, значение pH и уровень жёсткости. Остальные параметры демонстрируют более умеренное воздействие на результат.
На основании анализа полученных данных можно заключить, что разработанная система демонстрирует стабильную и корректную работу. Она обладает потенциалом практического применения как в научных экологических исследованиях, так и в деятельности специалистов, занимающихся управлением водными ресурсами. Построенная модель позволяет точно прогнозировать качество воды и своевременно выявлять критически важные показатели, требующие усиленного мониторинга.
Список литературы:
- Kaggle.com – Water Quality. [Электронный ресурс]. Режим доступа: https://www.kaggle.com/datasets/adityakadiwal/water-potability/data
- Ясницкий Л.Н. Введение в искусственный интеллект. М.: Издательский центр «Академия», 2005. – 176 с.
- Всемирная организация здравоохранения (ВОЗ). «Руководство по контролю качества питьевой воды». – Женева, 1992.
Режим доступа: https://www.who.int/news-room/fact-sheets/detail/drinking-water. - ГОСТ 2874-82. «Питьевая вода. Гигиенические требования и контроль за качеством». – М.: Издательство стандартов, 1982.
- СанПиН 2.1.4.1074-01. «Питьевая вода. Гигиенические требования к качеству воды централизованных систем питьевого водоснабжения. Контроль качества». – М.: Федеральный центр гигиены и эпидемиологии, 2001.
- Черепанов Ф.М., Ясницкий Л.Н. Нейросимулятор 4.0. Свидетельство о регистрации программы для ЭВМ RUS 2014612546. Заявка № 2014610341 от 15.01.2014.
- Библиотека Keros – Русскоязычная документация Keros. [Электронный ресурс]. Режим доступа: https://ru-keras.com/home/
- Черепанов Ф.М., Ясницкий Л.Н. Нейросетевой фильтр для исключения выбросов в статистической информации // Вестник Пермского университета. Серия: Математика. Механика. Информатика. 2008. № 4. С. 151-155.
- Шитиков В.К., Зинченко Т.Д., Головатюк Л.В., «Нейросетевые методы оценки качества поверхностных вод по гидробиологическим показателям» [Электронный ресурс]. Режим доступа: https://cyberleninka.ru/article/n/neyrosetevye-metody-otsenki-kachestva-poverhnostnyh-vod-po-gidrobiologicheskim-pokazatelyam/viewer
Оставить комментарий