Статья опубликована в рамках: CXVII Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 20 мая 2021 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
СОЗДАНИЕ СИСТЕМЫ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ НА ОБЪЕКТАХ ТОПЛИВНО-ЭНЕРГЕТИЧЕСКОГО КОМПЛЕКСА
CREATION OF A BIG DATA PROCESSING SYSTEM AT FUEL AND ENERGY COMPLEX
Ivan Gafurov
master, Institute of Digital Technologies and Economics, Kazan State Power Engineering University,
Russia, Kazan
АННОТАЦИЯ
Целью исследования было создание системы обработки больших данных, которые поступают в реальном времени от оборудования и информационных систем топливно-энергетического комплекса (ТЭК). Методом исследования было выбрано моделирование. В результате была разработана система, которая обеспечивает сбор, обработку, хранение и подготовку больших данных для последующего анализа. При создании подобных систем наибольшее внимание необходимо уделять проработке моделей данных, выбору подходящих технологий, а также отказоусточивости и масштабируемости.
ABSTRACT
The aim of the study was to create a system for real time big data processing for equipment and information systems of the fuel and energy complex. Modeling was chosen as the research method. As a result, a system was developed that provides collection, processing, storage and preparation of big data for subsequent analysis. When creating such systems, the biggest attention should be paid to the development of data models, the choice of suitable technologies, as well as fault tolerance and scalability.
Ключевые слова: большие данные; сбор информации, отказоустойчивость, масштабируемость.
Keywords: big data; data collection; fault tolerance, scalability.
Оборудованием ТЭК генерируется огромное количество данных в реальном времени, которые соответствуют следующим критериям [1, с. 35]:
1) большой размер — каждый агрегат может генерировать не только числовые или текстовые виды данных, но и изображение, например о визуальном состоянии механических частей. Совокупность всего оборудования объектов ТЭК может генерировать гигабайты данных в секунду.
2) Скорость генерации — сбор и обработка данных должна производиться в реальном времени, для обеспечения быстрой реакции на отклонения в работе.
3) Разнообразие источников данных — на объектах ТЭК имеется огромное количество источников данных о работе различного оборудования.
Нами использовалось следующие источники данных: данные SCADA системы, отчеты персонала об остановках и неисправностях оборудования, база данных программы управления оборудованием [1, с. 51].
Рисунок 1. Архитектура системы обработки больших данных
Выше приведена архитектура системы. Программа, написана на языке Java. Ее работа разбита на несколько этапов:
- Получение данных: используется open-source библиотека s7connector для получения и обработки сигналов от датчиков, систем безопасности, измерителей температуры, давления и т.п., а также SCADA систем. Отчеты об остановках и неисправностях загружаются в программу в виде excel файлов и считываются стандартыми библиотеками Java. Для получения информации из баз данных программ управления оборудованием используется jdbc-driver и Hibernate framework.
- Обеспечение сохранности данных: программа отправляет данные в сервис потоковой обработки Kafka, для того, чтобы обеспечить высокую пропускную способность их обработки и сохранность полученных данных. Каждое сообщение имеет свой тип и записывается в данный сервис под определенным топиком для возможности чтения. При возникновении непредвиденной ошибки данные не могут быть потеряны, так как распределены по нескольким экземплярам серверов Kafka [2, с. 225].
- Распределение обработки данных: система подписывается на определенные топики в Kafka, чтобы иметь возможность считывать данные определенных типов и получает их в реальном времени. Для обработки больших данных в реальном времени испольузется фреймворк Hadoop и методика map – reduce, которая обеспечивает одновременную обработку большого потока данных на нескольких копиях приложений и оборудования соответственно [2, c. 237].
- Преобразование данных: информация преобразуется в удобный для записи и анализа формат, а именно классов и объектов, используя принципы объектно – ориентированного программирования.
- Сохранение данных: для сохранения данных в постоянное хранилище используется фреймворк Spring-Data и datastax драйвер для подключения к базе данных. В качестве базы данных используется Cassandra, которая обеспечивает быструю скорость на запись данных и их агрегацию и последующий анализ [3, c. 95]. При этом все незначительные или поврежденные данные игнорируются.
Данный программный комплекс позволит собирать данные из разных, неструктурированных источников, приводить их в приемлемый и готовый для прогнозирования вид и делать на их основе прогноз возможности отказов, простоев и неполадок, что позволит планировать мероприятия по обслуживанию оборудования для предотвращения простоев, уменьшить затраты на его обслуживание и продлить срок службы. При этом система обеспечивает высокую надежность и легкость масштабирования.
Список литературы:
- Bart Baesens, Analytics in a Big Data World: The Essential Guide to Data Science and its Applications. New Jersey: John Wiley & Sons, Inc., 2014. — p. 35-71.
- Marz N., Warren J. Big Data: Principles and Best Practices of Scalable Realtime. New York: Manning Publications Co., 2015. — p. 225-241.
- Клеппман M. Высоконагруженные приложения - программирование, масштабирование, поддержка. СПб: Питер, 2017. — 95-101 с.
дипломов
Оставить комментарий