Статья опубликована в рамках: Научного журнала «Студенческий» № 6(134)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3
АНАЛИЗ МЕТОДОВ ВЕРИФИКАЦИИ БАЗЫ ДАННЫХ
ANALYSIS OF DATABASE VERIFICATION METHODS
Konstantin Dobrov
student, Department of Automated Control Systems, Ufa state aviation technical University,
Russia, Ufa
Karina Fayzrahmanova
scientific advisor, Candidate of Sciences in Technical, associate professor, Ufa state aviation technical University,
Russia, Ufa
АННОТАЦИЯ
В данной статье рассматриваются системы верификации данных, а также необходимость использования интеллектуального модуля верификации. Сформулирована суть проблемы, актуальность ее решения и ценность для существующего бизнес-процесса. Описаны цели и задачи, проведен анализ существующей проблемы и обзор существующих методов ее решения. Более подробно рассматриваются искусственные нейронные сети, как метод решения, применение базы знаний, с которыми интегрируются нейронные сети, для валидации входных и выходных значений, интеллектуальная среда и популярные библиотеки для создания модели.
ABSTRACT
This article discusses data verification systems, as well as the need to use an intelligent verification module. The essence of the problem, the relevance of its solution and the value for the existing business process are formulated. The goals and objectives are described, the analysis of the existing problem and the review of the existing methods of its solution are carried out. Artificial neural networks are considered in more detail as a solution method, the use of a knowledge base with which neural networks are integrated for validating input and output values, an intelligent environment, and popular libraries for creating a model.
Ключевые слова: технологические тренды, система верификации данных, СВД, хранилище данных, большие данные, искусственная нейронная сеть, целостность данных.
Keywords: technological trends, data verification system, SVD, data storage, big data, artificial neural network, data integrity.
Введение
Цифровая трансформация мировой экономики происходит на наших глазах. Технологические тренды, такие как интернет вещей, большие данные, дополненная реальность и другие очень быстро стали реальностью [1, 2]. По-другому такую трансформацию можно назвать – бизнес-интеллектом. Базовым основанием бизнес-интеллекта является мощная система баз данных, которая фиксирует все необходимые данные для управления бизнесом [3].
Определение «большие данные» широко используется в наше время. С недавних пор стали актуальны методы обработки больших объемов данных. Компании начали использовать разные системы для их хранения и обработки. Использование хранилища данных позволяет использовать систему на протяжении значительного периода времени без снижения производительности работы системы [4].
В связи с использованием большого хранилища данных появилась проблема: в разных системах накоплено огромное количество данных и из-за этого возникает большое количество несостыковок в одних и тех же показателях, а в некоторых случаях нарушена целостность данных. Из-за этого бизнес не может строить достоверные отчеты и проводить аналитику.
Один из путей решения данной проблемы – применить систему верификации данных (далее СВД), которая будет проверять их качество. Под этим подразумевается низкий уровень погрешностей измерений технологических параметров или вычислений показателей при высокой надежности информационно-измерительных комплексов, которые обеспечены подсистемами диагностики неисправностей и парирования их последствий [5].
Для данной системы необходимо создать бизнес-требования к данным, а также бизнес-правила, по которым будет проводиться проверка качества данных. СВД должна обеспечивать достоверность и логическую целостность данных [6, 7]. Если система верификации найдет некорректные данные, то данный инцидент должно решить ответственное лицо (рис. 1).
Рисунок 1. Алгоритм решения инцидентов
СВД помогает хранилищу данных с актуальностью, объективностью, целостностью и релевантностью данных. Совокупность количественных оценок таких показателей отражает качество данных – характеристику, показывающую степень их пригодности к обработке и анализу. Если говорить иначе, то качество данных – это степень их пригодности к использованию. Так, стандарт ISO 9000:2015 определяет качество данных по степени их удовлетворения требованиям: потребностям или ожиданиям, таким как полнота, достоверность, точность, последовательность, доступность и своевременность.
Актуальность
Актуальность решения обуславливается качеством данных, что сэкономит бизнесу время и деньги, потраченные на обработку данных вручную, а также исправит проблему недостоверности отчетов и аналитики.
Цель
Произвести анализ существующих систем верификации для хранилища данных, позволяющих проверять данные на достоверность, точность и целостность, и найти их достоинства и недостатки.
Задачи
Исходя из цели работы можно выделить 2 задачи:
- Проанализировать существующие решения
- Выявить достоинства и недостатки
Основная часть
Верифицировать данные можно разными способами, например с помощью готового программного обеспечения, простыми условиями и правилами на уровне базы данных, а также с помощью искусственных нейронных сетей. Рассмотрим эти способы по порядку.
Готовое программное обеспечение. Верификация данных в хранилищах обычно происходит с помощью определенных сценариев. На данный момент существует специализированное программное обеспечение, которое разработано такими компаниями, как Oracle, IBM, Computer Associates и других.
Проанализируем предложенные программные обеспечения.
Oracle Enterprise Data Quality. Данное ПО позволяет анализировать данные, находить ошибки и неточности. Большим достоинством можно выделить интуитивный интерфейс, простоту добавления и изменения правил проверки данных.
IBM BigQuality. Данное решение предназначено для оценки качества данных. Достоинством можно выделить предоставление комплексных функций управления и интеграции данных.
Computer Associates ERwin Examiner. Данное программное обеспечение позволяет проанализировать структуру хранилища данных с целью выявления ошибок проектирования. Достоинством можно выделить валидацию базы данных на этапе ее проектирования.
Рассмотрим недостатки приведенных решений:
- Отсутствие формальных моделей требований целостности,
- Разработка сценариев требует больших затрат человеческого труда,
- Отсутствие оперативности выявления ошибок в данных,
- Неполнота выявления ошибок.
Простые правила и условия. Проанализируем верификацию данных с помощью правил и условий. Достоинствами можно выделить быструю разработку бизнес-требований и бизнес-правил под определенные задачи. Недостатками являются:
- Высокая затрата человеческого труда,
- Невозможность использования в другой системе,
- Плохая адаптируемость под новые изменения в системе.
Искусственные нейронные сети. Сейчас нейронные сети представляют собой перспективным инструментом исследований в разных областях жизнедеятельности [8]. В частности, при помощи нейронных сетей решаются задачи в области экономики и управления [9]. В основе верификации данных с помощью нейронных сетей лежат методы компьютерного зрения. Данный способ обеспечивает высокую точность распознавания неточностей, ошибок или достоверности данных. Этот метод в отличие от всех других позволяет проводить автоматическую оценку достоверности данных, ускоряя процесс верификации. Недостатком использования искусственных нейронных сетей является сложность разработки. Но достоинствами можно отметить высокую точность, минимальное время поиска недостоверных данных, адаптируемость под изменения в системе, повторное использование в других хранилищах данных.
Таким образом можно сделать вывод о том, что разработка и использование системы с искусственной нейронной сетью является лучшим средством верификации данных в базах данных.
Главная задача стоит в обучении нейронной сети. Первый эффективный алгоритм для обучения нейронных сетей был предложен Дж. Хинтоном в 2006 году [10]. После этого появилось множество других работ, где описывались другие, более эффективные алгоритмы. Было предложено, например, использовать готовую базу знаний. При данном подходе можно определить входные и выходные значения искусственной нейронной сети. С базой знаний работает машина обработки знаний, которая интерпретирует правила валидации, проверки на противоречия и корректность [11, 12]. Рассмотрим для чего это можно использовать:
- Проверка и корректировка выборок для нейронной сети,
- Проверка на противоречие и корректность выходных данных на этапе обучения,
- Проверки выходных данных уже обученной сети.
Следующим шагом стоит выбор интеллектуальной среды (ИС). ИС – это набор инструментов, позволяющий осуществить подбор параметров модели для определенной задачи, с малым участием специалиста. Этот набор позволяет применять нейронные сети тем людям, кто не является специалистом в этой сфере. На данный момент известно большое количество библиотек. Часто используемыми являются:
- TensorFlow – самая популярная библиотека, написана на языке python,
- Theano – одна из первых библиотек глубокого обучения,
- Keras – интерфейс для TensorFlow и Theano, прост в использовании,
- Torch – возможность использования на языках C/C++.
Последним шагом будет являться выбор нейросети и ее обучение. Выбор нейронной сети необходимо делать подбором, оценивая эффективность различных архитектур сетей. Перечислим некоторые искусственные нейронные сети [13]:
- Простая нейронная сеть, имеющая лишь один нейрон,
- Многослойные нейронные сети, иначе персептрон [14],
- Сети Кохонена – это самоорганизующиеся нейронные сети [15],
- Сеть Больцмана – полностью связанная нейронная сеть.
Либо предоставляется возможность воспользоваться автоматической генерации моделей нейросетей, чтобы не тратить время и силы на ручной подбор.
Вывод
Проанализировав существующие решения проблемы верификации данных и выделив их достоинства и недостатки, можно сделать вывод о том, что самым перспективным решением на данный момент будет система с использованием искусственной нейронной сетью.
Список литературы:
- Брускин С. Н. Модели и инструменты предиктивной аналитики для цифровой корпорации // Вестник РЭА им. Г.В. Плеханова. 2017. №5 (95). С. 1-5.
- Тимофеев А. Г., Лебединская О. Г. Data Mining и big datа в бизнес-аналитике цифровой трансформации государственного и корпоративного управления // УЭкС. 2017. №9 (103). C. 1-12.
- Ольховская И.В., Ишанходжаев М.А. Использование бизнес-интеллекта и бизнес-аналитики в организациях // Экономика и бизнес: теория и практика. 2018. №4. С. 1-3.
- Пак В. С. Разработка хранилища данных для подсчета рейтинга ВУЗов // Проблемы современной науки и образования. 2017. № 30. С.16-19.
- Савин Н. И., Бредихин Е. И. Автоматизированная система верификации программных приложений // Известия ТулГУ. Технические науки. 2016. № 2. С.260-268.
- Табунщик Г. В., Каплиенко Т. И., Шитикова Е. В. Модель верификации систем с ограниченными ресурсами // Радиоэлектроника, информатика, управление. 2017. № 4. С.162-167.
- Глухарев М. Л. Метод верификации и анализа защищенности баз данных на основе формализации требований целостности // дис. канд. тех. наук: 05.13.19. - СПб., 2011.
- Губарева Е. А. Нейронные сети в анализе временных рядов // Инновации и инвестиции. 2020. №10. С.150-153.
- Ширяев В. И. Финансовые рынки. Нейронные сети, хаос и нелинейная динамика. М.: Книжный дом «ЛИБРО-КОМ», 2009. 232 с.
- Hinton G. E. A fast learning algorithm for deep belief nets // Neural Computation. 2006. С.1527-1554.
- Головко В. А., Голенков В. В., Ивашенко В. П., Таберко В. В., Шаток Д. С., Крощенко А. А., Ковалёв М. В. Интеграция искусственных нейронных сетей с базами знаний // Онтология проектирования. 2018. №3 (29). С. 366-386.
- Liu H. Hierarchical representation for Efficient Architecture Search // H. Liu, K. Simonyan, O. Vinyals, C. Fernando, K. Kavukcuoglu // ICLR conference. 2017.
- Гюлумян А.Ю., Нишатов Н.П. Искусственный интеллект: эволюция, виды нейронных сетей, использование на финансовом рынке // Финансовые рынки и банки. 2018. №1. С. 74-78.
- Кротова Е.Л., Андреев Р.А. Сравнительный анализ результатов реализации нейронных сетей на основе персептрона и линейных нейронных сетей в пакете Matlab для обнаружения злоумышленника в информационной системе // МНИЖ. 2017. №4-4 (58). С. 58-61.
- Кубасов И.А., Мельников А.В., Мальцев С.А., Нарушев И.Р. Кластеризация объектов со слабо формализуемыми признаками на основе нейронной сети в виде слоя Кохонена // Вестник ВГУИТ. 2018. №3 (77). С. 86-91.
Оставить комментарий