Поздравляем с Днем Российской науки!
   
Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: Научного журнала «Студенческий» № 1(297)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6, скачать журнал часть 7, скачать журнал часть 8, скачать журнал часть 9, скачать журнал часть 10, скачать журнал часть 11

Библиографическое описание:
Пугин М.В. БАЗЫ ДАННЫХ В BIGDATA // Студенческий: электрон. научн. журн. 2025. № 1(297). URL: https://sibac.info/journal/student/297/356660 (дата обращения: 07.02.2025).

БАЗЫ ДАННЫХ В BIGDATA

Пугин Максим Витальевич

студент, кафедра информационные системы цифровой экономики, Российский университет транспорта,

РФ, г. Москва

DATABASES IN BIGDATA

 

Maxim Pugin

student, Department of Information Systems of Digital Economy Russian, University of Transport,

Russia, Moscow

 

АННОТАЦИЯ

В работе рассматриваются особенности баз данных в Big Data, включая их характеристики (объем, скорость, разнообразие) и технологии: NoSQL (MongoDB, Cassandra), Hadoop, Spark и Neo4j. Описаны вызовы, такие как производительность и качество данных, а также примеры применения в финансах, здравоохранении и науке.

ABSTRACT

The article examines the features of databases in Big Data, including their characteristics (volume, speed, variety) and technologies: NoSQL (MongoDB, Cassandra), Hadoop, Spark and Neo4j. Challenges such as productivity and data quality are described, as well as application examples in finance, healthcare, and science.

 

Ключевые слова: Big Data, базы данных, NoSQL, Hadoop, Spark, Neo4j, масштабируемость, производительность, обработка данных, распределенные системы, большие данные, аналитика данных, управление данными.

Keywords: Big Data, databases, NoSQL, Hadoop, Spark, Neo4j, scalability, performance, data processing, distributed systems, big data, data analytics, data management.

 

С развитием технологий и увеличением объемов данных перед бизнесом и научными учреждениями возникает необходимость в эффективном управлении, хранении и анализе данных. В эпоху Big Data (больших данных) традиционные системы управления базами данных (СУБД) сталкиваются с новыми вызовами. Задачи масштабируемости, производительности и доступности данных требуют внедрения новых подходов и технологий, которые позволяют справляться с колоссальными объемами информации.

1. Особенности Big Data

Big Data охватывает данные, которые не могут быть эффективно обработаны традиционными методами из-за их объема, скорости обработки и разнообразия. Эти данные могут включать как структурированную, так и неструктурированную информацию, такую как текст, видео, изображения, аудио и сенсорные данные.

Основные характеристики Big Data:

  • Объем (Volume): Большие объемы данных, которые могут исчисляться терабайтами или даже петабайтами.
  • Скорость (Velocity): Быстрое поступление и обработка данных в реальном времени.
  • Разнообразие (Variety): Разнообразие форматов данных (структурированные, полуструктурированные и неструктурированные).
  • Истинность (Veracity): Сложности, связанные с качеством и достоверностью данных.

2. Базы данных в контексте Big Data

Традиционные реляционные базы данных (RDBMS) не могут эффективно справляться с большими объемами и разнообразием данных, требующими сложных операций обработки. Поэтому на рынке появились новые подходы и технологии для работы с Big Data. К основным типам баз данных, используемых в Big Data, можно отнести:

  • NoSQL базы данных: Эти базы данных (например, MongoDB, Cassandra, HBase) не используют фиксированную схему и подходят для работы с неструктурированными данными. Они могут масштабироваться горизонтально, обеспечивая обработку больших объемов данных.
  • Document-based (например, MongoDB): хранят данные в виде документов.
  • Column-based (например, Cassandra, HBase): хранят данные по столбцам, что улучшает производительность при чтении больших объемов данных.
  • Key-Value stores (например, Redis, DynamoDB): используют простую модель хранения данных с ключом и значением.
  • Hadoop и Spark: Эти технологии предлагают распределенные системы обработки данных, которые обеспечивают возможность работы с данными на огромных кластерах серверов. Hadoop использует файловую систему HDFS (Hadoop Distributed File System) для хранения данных, а Spark является движком для обработки данных в реальном времени.
  • Graph databases: Используются для анализа взаимосвязей между объектами. Примеры таких баз данных — Neo4j и ArangoDB. Эти базы данных полезны для анализа социальных сетей, рекомендационных систем и других сценариев, где важно учитывать взаимосвязи между данными.

3. Проблемы и вызовы в работе с Big Data

В процессе работы с Big Data возникают следующие проблемы:

  • Масштабируемость: Нужно обеспечить обработку и хранение данных в условиях быстрого роста их объемов.
  • Производительность: Требуется высокая скорость обработки данных для получения результатов в реальном времени.
  • Доступность: Необходимы системы, которые могут обеспечить доступность данных при сбоях или выходах из строя отдельных узлов.
  • Управление качеством данных: Важно не только собирать большие объемы данных, но и обеспечивать их качество и соответствие стандартам.

4. Применение баз данных в Big Data

Базы данных для Big Data активно применяются в различных областях:

  • Финансовый сектор: Для обработки транзакционных данных, анализа риска и прогнозирования.
  • Здравоохранение: Для анализа медицинских данных, истории болезней, улучшения диагностики и персонализированного лечения.
  • Торговля: Для анализа покупательского поведения, разработки рекомендационных систем и управления запасами.
  • Научные исследования: Для обработки данных в области геномики, астрономии, экологии и других дисциплин.

С развитием технологий и увеличением объема данных важно использовать специальные базы данных, которые обеспечивают эффективную обработку и хранение информации в условиях Big Data. Современные системы NoSQL, Hadoop и Spark представляют собой ключевые технологии, которые значительно улучшили возможности работы с большими данными. Однако с ростом объема данных и сложностью их обработки возникают новые вызовы, требующие дальнейшего совершенствования технологий и методов работы с данными.

 

Список литературы:

  1. Бенджамин, К. Основы Big Data: Как использовать большие данные для принятия решений и повышения производительности / К. Бенджамин. — М.: Манн, Иванов и Фербер, 2018. — 352 с.
  2. Кресс, Г. Big Data: Будущее аналитики и машинного обучения / Г. Кресс. — М.: Наука, 2017. — 290 с.
  3. Ларсон, М. NoSQL базы данных: Теория и практика / М. Ларсон. — М.: ДМК Пресс, 2019. — 415 с.
  4. Хаммер, М., Чэмберс, Л. Обработка и хранение данных в Big Data с использованием Hadoop и Spark / М. Хаммер, Л. Чэмберс. — М.: Вильямс, 2016. — 536 с.
  5. Фридман, Д., Розенфельд, Э. Введение в MongoDB и Cassandra: Работы с NoSQL базами данных / Д. Фридман, Э. Розенфельд. — СПб.: БХВ-Петербург, 2020. — 278 с.

Оставить комментарий