Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: LXIV Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 12 апреля 2018 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Костикова А.В. ПРОЕКТИРОВАНИЕ БАЗ ДАННЫХ НА ОСНОВЕ СЛАБОСТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. LXIV междунар. студ. науч.-практ. конф. № 4(63). URL: https://sibac.info/archive/technic/4(63).pdf (дата обращения: 24.04.2024)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

ПРОЕКТИРОВАНИЕ БАЗ ДАННЫХ НА ОСНОВЕ СЛАБОСТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ

Костикова Анастасия Валерьевна

магистрант, кафедра АСиПР ВШЭМ УрФУ,

РФ, г. Екатеринбург

Хранение информации в слабоструктурированном виде является препятствием к ее дальнейшему эффективному использованию. Накопление больших объемов таких данных связано с вводом информации с помощью привычных программных средств, например, текстовых редакторов или иных систем обработки документов.

Слабое структурирование данных связано с некорректным описанием схемы данных. Схема данных может быть:

  • не задана заранее, содержание в данных может быть неявным;
  • имеет большой объем, при этом многократно изменяясь;
  • описывающей текущее состояние данных, допуская при этом нарушения схемы.

Еще одной причиной неструктурированности данных может быть не строгая типизация данных, когда одни и те же атрибуты объектов имеют различные типы.

Такая информация требует преобразования в стандартную структурированную форму, которая упростит и ускорит выполнение операций в базе данных. Поиск, анализ и подготовка отчетов будут проходит в такой системе быстрее.

Таким образом, задача проектирования базы данных заключается в следующем: для автоматического построения базы данных на основе неструктурированной информации разработать технологии и программные средства, позволяющие обрабатывать исходные файлы, которые были созданы с помощью произвольного шаблона.

Разрабатываемая система автоматизированного проектирования базы данных будет включать в себя следующие компоненты:

  • модуль проектирования базы данных на основе слабоструктурированной информации;
  • модуль создания базы данных;
  • модуль ввода информации.

При проектировании базы данных преследуются следующие цели:

  • обеспечение хранения всей необходимой информации;
  • минимизация количества таблиц, хранящихся в базе данных;
  • исключение избыточности данных, нормализация таблиц.

На первом этапе проектирования определяются все необходимые для представления данных атрибуты. Если база данных не содержит всю интересующую нас информацию, значит, она не отвечает заданным требованиям пользователей, ценность такой базы данных минимальна. После этого определяется количество таблиц и включение атрибутов в эти таблицы. При этом нужно исключить неограниченный рост числа таблицы, не допуская разделения на таблицы на несколько меньших.

На следующем этапе проектирования идет процесс создания набора последовательных таблиц с определением первичного ключа для каждой их них.

Заключительный этап проектирования предполагает подготовку перечня всех атрибутов. Атрибуты назначаются в таблицах, при этом таблицы должны быть нормализованы.

«Нормализация — это процесс организации данных в базе данных, включающий создание таблиц и установление отношений между ними в соответствии с правилами, которые обеспечивают защиту данных и делают базу данных более гибкой, устраняя избыточность и несогласованные зависимости» [2].

Задачами нормализации являются:

  • удаление дублирующейся информации;
  • создание структуры с учетом будущих изменений;
  • построение структуры таким образом, что влияние изменений на приложения должно быть минимально.

Есть множество уровней и способов нормализации, но для реляционных баз данных обычно применяется последовательность нормальных форм (таблица 1).

Таблица 1.

Нормальные формы [1, 3]

Нормальная форма

Свойства

Первая нормальная форма – 1НФ

  • таблица двумерна и не содержит ячеек с несколькими значениями;
  • в таблицу включены все атрибуты и все данные.

Вторая нормальная форма – 2НФ

  • таблица приведена к 1НФ;
  • данные во всех неключевых столбцах должны зависеть от первичного ключа или каждого поля первичного ключа.

Третья нормальная форма – 3НФ

  • таблица приведена к 1НФ и 2НФ;
  • все неключевые столбцы зависят от первичного ключа, но не зависят друг от друга.

 

Приведение к каждой последующей нормальной форме структурирует информацию все в большей степени, и при переходе от одной нормальной формы к другой свойства предыдущей сохраняются.

Для успешного проведения нормализации (до 3НФ) необходимо выполнить ряд операций, представленных на рисунке 1. На первом этапе нормализации происходит сбор сырых данных, определение атрибутов. Затем данные представляются в виде схем реляционных отношений. На втором этапе изучается семантика данных, определяется первичный ключ и функциональные зависимости между атрибутами. Третий этап – это поиск и удаление транзитивных зависимостей.

 

Рисунок 1. Этапы нормализации

 

Таким образом, методика проектирования базы данных на основе слабоструктурированной информации содержит следующие этапы (рисунок 2).

 

Рисунок 2. Методика проектирования базы данных

 

База данных формируется следующим образом: поля файла с исходными данными соответствуют полям основной таблицы, сохраняя название и формат представления данных. Для каждого поля типа список исходного файла создается отдельная таблица. Таким образом, осуществляется приведение к третьей нормальной форме.

Ввод информации в базу данных осуществляется по следующей методике (рисунок 3).

 

Рисунок 3. Методика ввода информации

 

Разработанные методики послужат основой для создания системы автоматического проектирования баз данных на основе слабоструктурированной информации.

С использование такой базы данных значительно сокращается время на поиск, обработку и анализ данных, происходит оптимизация всех процессов и расширение возможностей работы с базой данных.

 

Список литературы:

  1. Малыхина М.П. Базы данных: основы, проектирование и использование. СПб.: БХВ-Петербург, 2006. – 528 с.
  2. Описание основных приемов нормализации базы данных // Microsoft. [электронный ресурс] – Режим доступа. – URL: https://support.microsoft.com/ru-ru/help/283878/description-of-the-database-normalization-basics (дата обращения: 05.04.2018).
  3. Райордан Р. Основы реляционных баз данных. М.: Изд.-торг. Дом «Русская редакция», 2001. – 384 с.
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.