Статья опубликована в рамках: XLVII Международной научно-практической конференции «Наука вчера, сегодня, завтра» (Россия, г. Новосибирск, 29 марта 2017 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
ПРОБЛЕМЫ УСТРАНЕНИЯ ПРОТИВОРЕЧИЙ В БОЛЬШИХ ДАННЫХ
THE PROBLEM OF ELIMINATING THE CONTRADICTIONS IN THE BIG DATA
Victor Dashonok
senior lecturer of the department "Information and computing systems"
Petersburg State University of Communications of Emperor Alexander I,
Russia, St. Petersburg
Dinara Kassymova
doctoral student of the Kazakh National Research Technical University named after K.I. Satpayev, Kazakhstan, Almaty,
АННОТАЦИЯ
В статье рассматриваются проблемы поиска и устранения противоречий в «больших данных» на различных этапах обработки. Большое внимание уделяется проблемам на этапе очистки и методам повышения качества данных.
ABSTRACT
The article considers the search problems and eliminating contradictions in the "big data" at various stages of processing. Much attention is paid to problems at the stage of purification and methods of data quality improvement.
Ключевые слова: противоречие; большие данные; качество данных.
Keywords: contradiction; big data; data quality.
Введение. В определение больших данных входят такие характеристики, как многообразие, изменчивость и достоверность. Многочисленные источники данных различных типов, а также несогласованность значений постоянно меняющихся данных приводят повышению вероятности ошибок и искажений, к возникновению сложности сочетания разноформатных данных и интерпретации их контекста. Это приводит к наличию для анализа данных разного качества и уровня надежности. Для повышения достоверности данные проходят многоступенчатые процедуры очистки и трансформации. Весь процесс поиска новых знаний в больших данных можно разделить на несколько этапов. Успех каждого последующего зависит от таких факторов, как: количество проблем, «унаследованных» от предыдущих этапов жизненного цикла данных; набор инструментальных средств обработки, предоставляемых аналитической платформой [7];
С точки зрения анализа «качество данных» и «чистота» — это не одно и то же. Если чистота данных подразумевает отсутствие в них ошибок ввода, структурных нарушений, некорректных форматов и других причин, препятствующих анализу данных, то качество данных тесно связано с конкретными целями и задачами анализа, используемыми моделями, методами и алгоритмами. Следовательно, качественные данные с точки зрения одной задачи анализа (например, прогнозирования), окажутся малопригодными для решения другой (например, классификации). Известно, что для построения прогноза вполне достаточно наблюдений за развитием исследуемого процесса на некотором временном интервале, а для классификации объекта, вероятнее всего, потребуется его всестороннее описание. Набор критериев оценки качества данных для задач подобного рода не является идентичным, а качество самих данных необходимо связывать с конкретной аналитической задачей. Огромную роль в решениях задач аналитики больших данных играет уровень квалификации аналитика и качество выдвигаемых им гипотез по каждой конкретной задаче. Аналитик оценивает уровень качества данных и степень их соответствия требованиям, которые позволят получить качественное аналитическое решение. Если данные этим требованиям не соответствуют, нужно либо применить к ним процедуру для повышения уровня качества, либо отказаться от анализа [5].
Проблемы устранения противоречий
На этапе очистки данных создается база правил или шаблонов, которым должны соответствовать «правильные» данные. Противоречием или ошибкой будет считаться все, что не соответствует определенному шаблону или правилу. В условиях, постоянно меняющихся данных, предусмотреть шаблоны и правила для всех возможных ошибок и противоречий в данных невозможно.
Не все идентифицированные ошибки удается устранить. Существуют противоречия, устранить которые можно, только удалив сами данные. Поэтому, очень часто лучше принять решение использовать данные в «грязном» виде, чем вообще лишиться их.
Отказ от устранения ошибки. Немаловажным фактом значимости решения аналитики больших данных является экономическая эффективность. Процесс устранения некоторых обнаруженных ошибок очень трудоемок. Если затраты на устранение противоречий превышают полученную пользу, то принимается решение отказаться от очистки.
Программы очистки данных сами могут являться источниками ошибок. Например, корректируя одну запись, программа очистки данных может превратить ее в дубликат или противоречие другой. Это может произойти, если вместо пропущенного значения программа подставляет значение, выбираемое в соответствии с некоторым правилом (например, среднее по столбцу). Иногда процедуры очистки данных только усугубляют ситуацию. Если оператор OLTP-системы создает не так уж и много ошибок, то алгоритм очистки может преобразовать одновременно многие тысячи записей в попытке исправить несуществующую ошибку [1].
Все ошибки, связанные с качеством данных, делятся на два типа. Ошибки 1-го типа имеют место в том случае, когда программа очистки данных обнаруживает ошибку там, где ее нет. Ошибки 2-го типа называют «утраченными». Они появляются, если процедура очистки данных не смогла выявить противоречие, то есть данные, содержащие ошибку, были распознаны как правильные. Это происходит, когда данные выглядят правдоподобно, даже если содержат ошибку. Пропуск ошибки возможен, если соответствующее правило или шаблон не были предусмотрены в программе очистки.
Таким образом, очистка данных как часть их предобработки в аналитическом приложении является «последней инстанцией», где аналитик может провести оценку качества данных и принять необходимые меры по их очистке на основе собственного мнения с учетом конкретных целей и задач анализа [4].
Несмотря на многоступенчатую процедуру очистки данных, даже на этапе их непосредственного анализа возникают серьезные проблемы, препятствующие эффективному и корректному анализу. Эти проблемы далеко не всегда связаны только с «загрязненностью» данных - имеются и другие причины, которые не позволяют эффективно использовать данные для конкретного вида аналитической обработки.
Противоречия (конфликты) в базах данных можно разделить на три основные группы [2]:
1. Конфликты именования состоят в использовании одного и то же имени для разнотипных вещей или же нескольких имен для одного и того же объекта;
2. Структурные – одни из самых частых конфликтов, представляют использование различающихся по структуре моделей, ключей или политик для подобных или тех же объектов;
3. Семантические конфликты появляются, когда данные или знания противоречивы по существу, например, их значения противоречат из-за различных систем восприятия мира.
Для выявления и устранения противоречий применяются различные подходы и инструментальные средства в основном для обнаружения конфликтов именования и структурных конфликтов или для предотвращения конфликтов путем введения более детализированных описаний связей между объектами, запрещения определенных действий или других мероприятий, требующих большой предварительной подготовки и ручной работы [3].
Применение методов выявления противоречий не ограничивается поиском и исправлением ошибок в данных, с их помощью можно обнаруживать и фальсифицированные данные. Алгоритмы анализа текстов используются для выявления противоречий и определения искусственно созданных копий оригинальных текстов. Но, как показывает практика, алгоритмы, использующие синтаксические, семантические и тематические свойства текстов менее формализованы, характеризуются высокой вычислительной сложностью, что может сделать их применение экономически неэффективным[6].
Для выявления семантических противоречий целесообразно использовать метод Латентно-Семантического Анализа. Эффективность применения данного метода для выявления противоречий доказано. Принятие решения о возможности и варианте разрешения противоречия семантически близкой информации можно решить на основе методов нечеткого вывода с использованием алгоритма Мамдани или нейронных сетей[3-8].
Выводы.
Анализ проблем, возникающих на разных этапах обработки больших данных, показывает высокую сложность, а в некоторых случаях невозможность, автоматизации процесса из-за отсутствия универсальных алгоритмов очистки и повышения качества данных. Уровень квалификации эксперта напрямую влияет на достоверность будущих результатов, а успех зависит от правильно собранных, качественно очищенных и трансформированных данных, достоверность которых не вызывает сомнений.
Список литературы:
- Барсегян А. А., Куприянов М. С., Степаненко В. В., Холод И. И. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP: 2-е изд., СПб.: БХВ Петербург, 2007. – 384 с.
- Дашонок В.Л., Хомоненко А.Д., Логашов С.В. К вопросу устранения противоречивости семантически близкой информации в хранилищах и базах данных // В сборнике: ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ НА ТРАНСПОРТЕ. ИнтеллектТранс-2014 Материалы IV международной научно-практической конференции "ИнтеллектТранс-2014". Под редакцией А.А. Корниенко. 2014, 213-219 с.
- Йоцов В.С., Сгурев В.С., Юсупов Р.М., Хомоненко А.Д. Онтологии для разрешения семантических конфликтов: Труды СПИИРАН. 2008. - № 7. 26-40 с.
- Паклин Н.Б. Бизнес-аналитика: от данных к знаниям: СПб.: Питер, 2009. – 624 с.
- Ханк Д.Э., Уичерн Д.У., Райтс А.Д. Бизнес-прогнозирование: 7-е изд. – М.: Издат. дом «Вильямс», 2003. – 651 с.
- Шумская А.О. Метод определения искусственных текстов на основе расчета меры принадлежности к инвариантам: Труды СПИИРАН. 2016. № 6(49). -104-121 с.
- Laney D. 3-D Data Management: Controlling Data Volume, Velocity and Variety // Application Delivery Strategies. META Group. February 6, 2001. URL:http://blogs.gartner.com/doug-laney/deja-vvvue-othersclaiming-gartners-volume-velocity-variety-construct-for-big-data/(дата обращения: 15.09.2014).
- Lawrence R. Automatic Conflict Resolution to Integrate Relational Schema: Ph.D. Thesis, 2001, 165 pp.
дипломов
Оставить комментарий