Статья опубликована в рамках: Научного журнала «Студенческий» № 38(124)
Рубрика журнала: Технические науки
Секция: Технологии
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4
ХРАНИЛИЩЕ ДАННЫХ
Хранилище данных (Data Warehouse, DW) или корпоративное хранилище данных (Enterprise Data Warehouse, EDW) – это система, которая объединяет данные из различных источников в единое, централизованное, согласованное хранилище данных для поддержки анализа данных, интеллектуального анализа данных, искусственного интеллекта (Artificial Intelligence, AI) и машинного обучения. Система хранилища данных позволяет организации выполнять мощную аналитику на огромных объемах исторических данных, а стандартная база данных не может этого сделать.
Хранилища данных имеют трехуровневую архитектуру:
- Нижний уровень. Он состоит из сервера хранилища данных, обычно, системы реляционных баз данных, которая собирает, очищает и преобразует данные из нескольких источников данных с помощью процесса, известного как извлечение, преобразование и загрузка (ETL) или процесса, известного как извлечение, загрузка и преобразование (ELT).
- Средний уровень. Он состоит из сервера OLAP (Онлайн-аналитической обработки), который обеспечивает высокую скорость запросов. На этом уровне можно использовать три типа моделей OLAP, которые известны как ROLAP, MOLAP и HOLAP. Тип используемой модели OLAP зависит от типа существующей системы баз данных.
- Верхний уровень. Он представлен своего рода интерфейсом пользователя или инструментом отчетности, который позволяет конечным пользователям проводить специальный анализ данных своих бизнес-данных.
Схемы в хранилищах данных – это способы организации данных в базе данных или хранилище данных. Существует два основных типа структур схем:
- Звездная схема. Эта схема состоит из одной таблицы фактов, которая может быть присоединена к нескольким ненормализованным таблицам измерений. Она считается самым простым и наиболее распространенным типом схемы, и ее пользователи извлекают выгоду из ее более высокой скорости при выполнении запросов.
- Схема снежинки. Она не так широко распространена и представляет собой еще одну организационную структуру в хранилищах данных. В этом случае таблица фактов связана с рядом нормализованных таблиц измерений, и эти таблицы измерений имеют дочерние таблицы.
Хранилище данных, база данных, озеро данных и рынок данных – все эти термины, как правило, используются взаимозаменяемо, но существуют важные различия между ними:
- Хранилище данных и озеро данных. Хранилище данных собирает необработанные данные из нескольких источников в центральное хранилище, структурированное с использованием предопределенных схем, предназначенных для анализа данных. Озеро данных – это хранилище данных без предопределенных схем. В результате он обеспечивает больше типов аналитики, чем хранилище данных.
- Хранилища данных и витрины данных. Витрина данных – это подмножество хранилища данных, содержащее данные, относящиеся к определенной бизнес-линии или отделу. Витрины данных позволяют отделу или бизнес-линии обнаруживать более сфокусированные идеи быстрее, чем это возможно при работе с более широким набором данных хранилища данных.
- Хранилище данных и база данных. База данных создается в первую очередь для быстрого выполнения запросов и обработки транзакций, а не для анализа. База данных обычно служит сфокусированным хранилищем данных для конкретного приложения, в то время как хранилище данных хранит данные из приложений в организации. База данных фокусируется на обновлении данных в реальном времени, в то время как хранилище данных имеет более широкий охват, захватывая текущие и исторические данные.
Хранилище данных обеспечивает основу для следующих действий:
- Повышение качества данных. Хранилище данных централизует данные из различных источников данных, таких как транзакционные системы, операционные базы данных и плоские файлы. Затем он очищает их, устраняет дубликаты и стандартизирует, чтобы создать единый источник истины.
- Бизнес-инсайты. Хранилища данных обеспечивают интеграцию данных, позволяя бизнес-пользователям использовать все данные компании в каждом бизнес-решении.
- Интеллектуальное принятие решений. Хранилище данных поддерживает крупномасштабные функции BI, такие как интеллектуальный анализ данных, искусственный интеллект и машинное обучение.
Список литературы:
- НОУ ИНТУИТ | Лекция | Хранилища данных [Электронный ресурс]. – Режим доступа: https://intuit.ru/studies/courses/599/455/lecture/10156 (дата обращения 14.11.2020)
- Хранилища данных — Студопедия [Электронный ресурс]. – Режим доступа: https://studopedia.ru/4_163058_hranilishcha-dannih.html (дата обращения 15.11.2020)
- Что представляет собой хранилище данных? [Электронный ресурс]. – Режим доступа: https://aws.amazon.com/ru/data-warehouse/ (дата обращения 15.11.2020)
Оставить комментарий