Статья опубликована в рамках: III Международной научно-практической конференции «Экспериментальные и теоретические исследования в современной науке» (Россия, г. Новосибирск, 27 сентября 2017 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
ПРОБЛЕМА НАВИГАЦИИ В БОЛЬШИХ ДАННЫХ
ISSUE OF NAVIGATION IN BIG DATA
Svetlana Petrova
candidate of Science, Docent of Information Technology and Systems department, Yaroslav-the-Wise Novgorod State University (NovSU),
Russia, Veliky Novgorod
АННОТАЦИЯ
Раскрываются вопросы интероперабельности больших данных. Автор предлагает научно обоснованные и оригинальные модели интероперабельности, позволяющие извлекать знания и идеи из больших и сложных коллекций цифровых данных.
ABSTRACT
The questions of interoperability of big data are discussed. The authors offer scientifically grounded and original models of interoperability, which allow to extract knowledge and ideas from large and complex collections of digital data.
Ключевые слова: большие данные, навигация, интероперабельность.
Keywords: Big data, navigation, interoperability.
1. Интероперабельность больших данных
Сегодня мы видим продолжение роста систем, поддерживающих не реляционные или неструктурированные формы данных, а также массивные объемы данных. Прирост данных в организации требует создания управляемого пространства данных, которое будет консолидировать в себе как структурированные, так и слабо структурированные данные. Для такого консолидированного пространства данных ключевым вопросом является обеспечение навигации по пространству больших данных и вопрос о согласованности слабо структурированных данных со схемами нормализованных данных.
Современное пространство данных организации вынуждено хранить огромные объемы данных, на порядок больше, чем позволяют реляционные модели данных. Также необходимо выявление и анализ специальных связей между данными для получения информации важной и значимой для бизнес-задач организации. Данные поступают с такой скоростью, что невозможно поддерживать процесс индексирования и, следовательно, навигация затруднена.
2. Навигация по большим данным
Фокусирование на денормализации становится критическим в контексте пространства данных и особенно в отношении любых слабоструктурированных данных.Сами по себе слабоструктурированные данные представляют бессхемную модель с само описываемой структурой. Обычно для определения семантических элементов в таких данных используют тэги или другие маркеры. При этом объекты, принадлежащие к одному и тому же классу могут иметь разные атрибуты. Навигация по таким объектам осуществляется по естественным свойствам и атрибутам, искусственным ключам, а также по абсолютному или относительному положению на основе вычисляемых переходов. Но создание уникальных ключей по всем данным может оказаться сложной задачей для полу структурированных моделей данных, поэтому рекомендуется полагаться на бизнес-ключи и уникальный идентификатор набора данных (например, отчетную дату, исходную систему, версию данных и т. д.).
Таким образом, имея концептуальное представление о составе пространства данных, можно сделать предположение, что основная роль системы навигации по такой структуре – это долговременное хранение информации о структуре больших массивов данных определенной в простых терминах: идентификатора домена и бизнес-ключа. Это отличается от традиционной реляционной модели данных, использующей в определении своей структуры функциональную зависимость, многозначную зависимость или объединение. Использование идентификатора домена и бизнес-ключа позволяет создать такую структуру, которая позволит устранить все ограничения, кроме ограничений домена и ограничений ключа. Математическое описание такой формы было предложено Рональдом Фагином [1] в виде нормальной формы домена/ключа (DK/NF).
Пусть R* – это схема отношения, находящаяся в 1НФ, и пусть Γ – это множество домен-зависимостей (DD) и ключ-зависимостей (KD) схемы отношения. R* находится в нормальной форме домена/ключа (DK/NF), если Γ⊨σ, то есть σ является семантическим следствием набора утверждений Γ для любого ограничения σ схемы R* .
Но практическая реализация, отвечающая на вопрос как перевести отношение в нормальную форму домена/ключа, не была осуществлена и этот вопрос остался открытым. По сути необходимо провести преобразование f в виде тождественного отображения (в котором f(D)=D), которое приводит исходную схему отношения в целевую путем удаления всех ограничений. Таким образом, каждой схеме отношения в исходной схеме базы данных соответствует схема отношения в целевой схеме базы данных с точно такими же атрибутами, но без ограничений (и, кроме того, целевая схема базы данных не имеет взаимосвязанных ограничений).
Обычное ограничение указывает любое правило работы с атрибутами и включает в себя правила редактирования, ограничения взаимосвязи, функциональную зависимость, и многопараметрическую зависимость, но не включает в себя ограничения во времени. Ограничение домена указывает допустимые значения для данного атрибута, а ограничение ключа указывает атрибуты, которые однозначно идентифицируют строку в данной таблице. Нормальная форма домена/ключа достигается, когда каждое ограничение на отношении является логическим следствием определения ключей и доменов, а принудительное ограничение и условия ключа и домена заставляет все ограничения выполняться. Таким образом, она избегает всех не временных аномалий. Причина использования нормальной формы домена/ключа заключается в том, чтобы избежать наличия общих ограничений в базе данных, которые не относятся к ограничениям домена или ключа и устранить немасштабируемость реляционной модели данных.
Разрешение ссылочных ограничений целостности в качестве взаимосвязанных ограничений находится в духе определения схемы отношений DK/NF, поскольку ссылочные ограничения целостности являются очень важными ограничениями, которые система управления базами данных должна иметь в любом случае.
3. Обсуждение полученных результатов
Обычное ограничение указывает любое правило работы с атрибутами и включает в себя правила редактирования, ограничения взаимосвязи, функциональную зависимость, и многопараметрическую зависимость, но не включает в себя ограничения во времени. Ограничение домена указывает допустимые значения для данного атрибута, а ограничение ключа указывает атрибуты, которые однозначно идентифицируют строку в данной таблице. Нормальная форма домена/ключа достигается, когда каждое ограничение на отношении является логическим следствием определения ключей и доменов, а принудительное ограничение и условия ключа и домена заставляет все ограничения выполняться. Таким образом, она избегает всех не временных аномалий. Причина использования нормальной формы домена/ключа заключается в том, чтобы избежать наличия общих ограничений в базе данных, которые не относятся к ограничениям домена или ключа и устранить немасштабируемость реляционной модели данных.
Разрешение ссылочных ограничений целостности в качестве взаимосвязанных ограничений находится в духе определения схемы отношений DK/NF, поскольку ссылочные ограничения целостности являются очень важными ограничениями, которые система управления базами данных должна иметь в любом случае.
Идентификатор домена может представлять собой носитель морфологической информации объекта данных записанный в виде последовательности тегов с помощью определенного способа кодирования. Каждый объект данных обладает двумя основополагающими свойствам: наследственностью и уникальностью. Наследственность – способность объекта данных передавать свои признаки и особенности потомкам. Благодаря этой способности все объекты данных сохраняют в своих потомках характерные черты домена. Такая преемственность наследственных свойств обеспечивается передачей индикатора домена. Уникальность – разнообразие признаков среди объектов данного домена, также свойство потомков отличаться от родительских форм. Уникальность объекта данных обеспечивается ключом.
Список литературы:
- Васильева Е. Ю., Граничина О. А., Трапицын С. Ю. Рейтинг преподавателей, факультетов и кафедр в вузе: Методическое пособие. — СПб.: Изд-во РГПУ им. А. И. Герцена, 2007. — 159 с.
- Kurt Eichenwald. Microsoft’s Lost Decade. July 24, 2012 – URL: http://www.vanityfair.com/news/business/2012/08/microsoft-lost-mojo-steve-ballmer (дата обр. 25.06.2017)
- Бордовская Н.В. Педагогика: учеб. Пособие / Н.В. Бордовская, А.А.Реан. – СПб.: Питер, 2006. – с.141 – 150.
дипломов
Оставить комментарий