Статья опубликована в рамках: CXLVI Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 06 февраля 2025 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Хлудов И.В. МЕТОДЫ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ В РАСПРЕДЁЛЕННЫХ СИСТЕМАХ ХРАНЕНИЯ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. CXLVI междунар. студ. науч.-практ. конф. № 2(144). URL: https://sibac.info/archive/technic/2(144).pdf (дата обращения: 11.12.2025)

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

У данной статьи нет
дипломов

МЕТОДЫ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ В РАСПРЕДЁЛЕННЫХ СИСТЕМАХ ХРАНЕНИЯ

Хлудов Илья Владимирович

студент, кафедра информационных систем и технологий, Московский государственный технологический университет «Станкин»

РФ, г. Москва

BIG DATA PROCESSING METHODS IN DISTRIBUTED STORAGE SYSTEMS

Ilya Hludov

student, Department of Information Systems and Technologies Moscow state university of technology “STANKIN”,

Russia, Moscow

АННОТАЦИЯ

В статье рассмотрены современные методы обработки больших данных в распределённых системах хранения, таких как HDFS, Amazon S3 и Google Cloud Storage*. Основное внимание уделено интеграции технологий обработки (Apache Spark, Apache Flink) с распределёнными хранилищами для повышения эффективности вычислений. Обсуждаются ключевые вызовы, включая гетерогенность данных, совместимость систем и обеспечение безопасности. Выделяются перспективы применения искусственного интеллекта, машинного обучения, периферийных вычислений и серверлесс-архитектур. Также анализируются инновационные подходы, такие как Data Lakehouse.

ABSTRACT

This paper explores modern methods for processing big data in distributed storage systems such as HDFS, Amazon S3, and Google Cloud Storage*. The focus is on the integration of processing technologies (Apache Spark, Apache Flink) with distributed storage systems to improve computational efficiency. Key challenges are discussed, including data heterogeneity, system compatibility, and security assurance. The paper highlights the prospects of artificial intelligence, machine learning, edge computing, and serverless architectures. Innovative approaches like Data Lakehouse, which combine the benefits of traditional data warehouses and data lakes.

Ключевые слова: большие данные, распределённые системы хранения, Apache Spark, Apache Flink.

Keywords: big data, distributed storage systems, Apache Spark, Apache Flink.

Рост объёмов данных в различных отраслях и сферах деятельности привел к необходимости разработки и внедрения эффективных методов их обработки. Большие данные (Big Data) представляют собой огромные массивы информации, которые требуют специальных подходов для анализа и обработки. Распределённые системы хранения данных, такие как HDFS, Amazon S3 и Google Cloud Storage*, играют ключевую роль в инфраструктуре обработки больших данных. Эти системы обеспечивают надёжное хранение, отказоустойчивость и высокую масштабируемость, что делает их неотъемлемой частью современных технологий.

Целью данной статьи является представление обзора и анализа методов обработки больших данных в распределённых системах хранения. Основное внимание уделено тому, как эти методы взаимодействуют с системами хранения для обеспечения эффективной обработки данных.

Распределённые системы хранения данных представляют собой архитектуру, в которой данные распределены между множеством узлов, работающих совместно для обеспечения доступа к информации. В отличие от централизованных систем, где данные хранятся в одном месте, распределённые системы распределяют данные по различным серверам или локациям. Это позволяет значительно повысить надёжность и производительность хранения, обеспечивая при этом отказоустойчивость и масштабируемость. Основная цель таких систем — хранить большие объёмы данных, предоставляя при этом высокую доступность и защиту информации. [1]

Распределённые системы хранения данных обладают следующими ключевыми характеристиками:

Репликация данных: данные дублируются на нескольких узлах системы, что обеспечивает надёжность и отказоустойчивость.
Отказоустойчивость: системы способны продолжать работу даже в случае выхода из строя отдельных узлов.
Масштабируемость: возможность добавления новых узлов для увеличения объёмов хранения и повышения производительности.

Популярные системы:

HDFS (Hadoop Distributed File System): широко используется в экосистеме Apache Hadoop и предоставляет надёжную платформу для хранения больших объёмов данных.
Amazon S3: облачная система хранения от Amazon, обеспечивающая высокую доступность и интеграцию с другими сервисами.
Google Cloud Storage*: облачное решение от Google с акцентом на безопасность и удобство использования.
Ceph: распределённая файловая система с открытым исходным кодом, поддерживающая блочные, объектные и файловые хранилища.

Распределённые системы хранения данных тесно интегрируются с инструментами обработки больших данных, такими как Apache Spark и Apache Flink. Они предоставляют платформу для эффективного выполнения вычислений, включая пакетную, потоковую и микропакетную обработку. Благодаря интеграции с такими системами, как Spark, пользователи могут выполнять сложные аналитические задачи прямо на данных, хранящихся в распределённых системах. [2]

Классификация методов обработки данных

На основе архитектуры:

Централизованные методы: данные хранятся и обрабатываются в одном месте, что упрощает управление, но ограничивает масштабируемость.
Распределённые методы: данные распределены между множеством узлов, что позволяет обрабатывать их параллельно и повышает отказоустойчивость.

По способу обработки:

Пакетная обработка (Batch processing):

Данные собираются и обрабатываются крупными блоками.
Пример: Apache Hadoop (MapReduce).

Потоковая обработка (Stream processing):

Обработка данных происходит в реальном времени по мере их поступления.
Пример: Apache Flink.

Микропакетная обработка (Micro-batch processing):

Данные обрабатываются небольшими пакетами с минимальной задержкой.
Пример: Apache Spark (Structured Streaming).

По типу данных:

Обработка структурированных данных: данные имеют чёткую структуру, например, таблицы в базах данных.
Обработка полуструктурированных данных: данные имеют частичную структуру, например, JSON или XML.
Обработка неструктурированных данных: данные без фиксированной структуры, например, текст, изображения, видео.

Технологии обработки больших данных:

Apache Hadoop:

Технология пакетной обработки, где данные разбиваются на задачи, которые распределяются между узлами.
Масштабируемость, высокая отказоустойчивость.
Высокая задержка, сложность настройки.

Apache Spark:

DataFrame и Spark SQL упрощают обработку, предоставляя высокоуровневые интерфейсы.
Поддержка параллельной обработки и механизмов оптимизации, таких как Catalyst.

Apache Flink:

Поддержка обработки данных с низкой задержкой и высокой пропускной способностью.
Используется для анализа событий, IoT и мониторинга систем в реальном времени.

Современные технологии обработки данных, такие как Spark и Flink, обеспечивают эффективную интеграцию с распределёнными файловыми системами и облачными хранилищами, такими как HDFS, Amazon S3 и Google Cloud Storage*. Это позволяет выполнять вычисления непосредственно в хранилище данных, минимизируя издержки на передачу данных. Инструменты оптимизации, включая pushdown-фильтры и колоночные форматы данных, такие как Parquet и ORC, ускоряют обработку и снижают затраты на хранение. Однако гетерогенность хранилищ и необходимость унификации форматов данных и API остаются вызовами. Дополнительно, вопросы безопасности, включая шифрование данных и контроль доступа, приобретают первостепенное значение в распределённых системах.

Ключевыми проблемами взаимодействия систем обработки и хранилищ данных являются сложности интеграции разнородных систем, требующие значительных затрат на адаптацию форматов и интерфейсов. Гетерогенность данных усугубляет задачи совместимости, ограничивая гибкость аналитических процессов. Кроме того, защита данных в условиях растущих угроз и строгих требований к конфиденциальности становится всё более сложной задачей. Достижение высокого уровня производительности и безопасности в распределённых системах требует внедрения передовых технологий и значительных ресурсов.

Будущее обработки данных связано с активным внедрением технологий искусственного интеллекта (AI) и машинного обучения (ML), которые обеспечивают интеллектуальный анализ, автоматическое обнаружение аномалий и прогнозирование. Развитие периферийных вычислений (Edge Computing) позволяет обрабатывать данные ближе к их источникам, улучшая скорость и снижая задержки. Концепция Data Lakehouse, объединяющая лучшие свойства Data Lake и Data Warehouse, предлагает гибкость и удобство для аналитиков. Серверлесс-архитектуры, такие как AWS Lambda и Google Cloud Functions*, упрощают масштабирование и снижают издержки, предоставляя пользователям возможность сосредоточиться на задачах обработки, а не на управлении инфраструктурой. [3]

Методы обработки больших данных продолжают развиваться, предлагая новые возможности для анализа и оптимизации данных. Распределённые системы хранения и инструменты обработки, такие как Apache Spark и Flink, становятся ключевыми компонентами современных решений. Тем не менее, остаются вызовы, связанные с производительностью, энергопотреблением и безопасностью. Будущее технологий обработки данных связано с развитием AI, ML, серверлесс-архитектур и гибридных подходов, таких как Data Lakehouse. Эти тенденции помогут компаниям более эффективно использовать данные для принятия стратегических решений.

*(По требованию Роскомнадзора информируем, что иностранное лицо, владеющее информационными ресурсами Google является нарушителем законодательства Российской Федерации – прим. ред.)

Список литературы:

Design Principles of Distributed File System / [Электронный ресурс] // geeksforgeeks: [сайт]. — URL: https://www.geeksforgeeks.org/design-principles-of-distributed-file-system/ (дата обращения: 16.01.2025).
Потоковая обработка данных: анализ альтернативных решений / [Электронный ресурс] // habr: [сайт]. — URL: https://habr.com/ru/companies/itsumma/articles/767746/ (дата обращения: 18.01.2025).
Data Lakehouse Overview / [Электронный ресурс] // apache: [сайт]. — URL: https://doris.apache.org/docs/lakehouse/lakehouse-overview (дата обращения: 19.01.2025).