Статья опубликована в рамках: Научного журнала «Студенческий» № 20(148)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6, скачать журнал часть 7
СЛУЧАЙНАЯ ЭНДОГЕННОСТЬ BIG DATA
RANDOM ENDOGENEITY OF BIG DATA
Oleg Finogenov
student, Institute of Applied Informatics, Mathematics and Physics, Armavir Pedagogical University,
Russia, Armavir
Vladimir E. Belchenko
Scientific supervisor, Candidate of Technical Sciences, Associate Professor of the Department of Informatics and ICO, Armavir State Pedagogical University,
Russia, Armavir
АННОТАЦИЯ
В данной статье рассматривается одна из основных проблем анализа больших данных – случайная эндогенность. Наличие данной проблемы обусловлено тем, что большие данные обусловлены огромной выборкой и большой размерностью, в отличие от традиционных наборов, что приводит к статистическим ошибкам в Data Science и Machine Learning и искажению информации.
ABSTRACT
This article discusses one of the main problems of big data analysis – random endogeneity. This problem is caused by the fact that big data is caused by a huge sample and a large dimension, unlike traditional sets, which leads to statistical errors in Data Science and Machine Learning and information distortion.
Ключевые слова: большие данные, проблема работы с большими данными, случайная эндогенность.
Keywords: big data, big data problem, random endogeneity.
Введение
В настоящее время активно развивается такой раздел информатики, как наука о данных или data science. Он изучает проблемы анализа, обработки и представления данных, объединяет методы обработки больших объемов данных в условиях высокого уровня параллелизма, а также статические и интеллектуальные методы анализа данных. В процессе обработки и представления возникает ряд проблем, одна из которых – случайная эндогенность. Именно она будет рассмотрена в данной статье.
Основная часть
Случайная эндогенность – проблема, возникающая в процессе обработки big data из-за высокой размерности. В формуле регрессии это примет следующий вид:
Y = ∑dj = 1βjXj + εY = ∑j = 1dβjXj + ε
где
ε - остаточный шум;
Xj, dj, βj – некоторый предикторы.
В данной настройке регрессии часть предикторов коррелируются с ε. Обычная же разреженная модель предполагает:
Y=∑jβjXj+ε,and E(εXj)=0 for j=1,…,d,Y=∑jβjXj+ε,and E(εXj)=0 for j=1,…,d
с множеством S = {j: βj ≠ 0}. Вышеприведенное экзогенное предположение, что ε не коррелирует с большинством предикторов, имеет огромное значение для критерия достоверности практически всех статических методов, включая в себя согласованность выбора переменных.
Причиной эндогенности могут быть:
- Пропуск существенных переменных
- Ошибки измерения регрессов
- Самоотбор
- Одновременность
- Автокорреляция ошибок при наличии в уравнении лага зависимой переменной в роли регрессора
Также стоит отметить, что причины со второй по пятую вытекают из причины номер один, так как при проведении больших измерений, некоторые переменные Xj по теории больших чисел будут коррелироваться с ε, что приведет к тому, что ряд многомерных процедур станет статически недействительным.
Дабы более развернуто рассмотреть проблему эндогенности, свяжем искомый нами ответ Y с тремя ковариатами, тогда Y будет находиться следуюшим образом:
Y=X1+X2+X3+ε,with EεXj=0,for j = 1, 2, 3.Y=X1+X2+X3+ε,with EεXj=0,for j = 1, 2, 3
Во время сбора данных предсказать истинную модель невозможно. Именно поэтому необходимо собрать большое количество ковариат, потенциально связанных с Y, чтобы включить большее количество членов в S, тогда часть из них могут быть связаны с остаточным шумом. Это опровергает предположение об экзогенном моделировании, т.е. чем больше ковариат собрано, тем более сложным получится предположение.
При этом есть несколько возможностей избежать этой проблемы:
- Так как эндогенность может быть вызвана неправильным выбором инструмента, то если от него есть возможность отказаться и использовать панель, то стоит ей воспользоваться.
- Если отказаться от инструментов нельзя, то в их качестве может выступать группировка. При этом группировка должна разделять ненаблюдаемые высокие и низкие значения пропущенной переменной. Также инструментом может быть лаг высокого порядка.
- Можно использовать легкодоступные экзогенные переменные, не включенные в модель.
Подводя итог вышесказанному, можно сделать вывод, что эндогенность возникает в результате смещения выбора, неверного измерения и упущенных значений. Эти проблемы часто происходят во время работы с Большими Данными из-за двух основных причин:
Первое. Развитие высокопроизводительных средств вычислительной техники позволяет собирать и анализировать огромные массивы данных. Из-за чего у некоторых из них и происходит корреляция с остаточным шумом.
Второе. Большие данные не редко формируются из нескольких источников информации, которые могут быть сформированными по различным схемам. Если не учитывать это, то вероятность смещения выбора и ошибок измерения увеличивается, что также вызовет случайную эндогенность.
Третье. Неправильная борьба с вышеупомянутыми ошибками. Ряд ошибок могут возникать случайно, а выводы итогового анализа могут не пострадать, но если начать их устранять, то настройка стабильного процесса для компенсации небольших имеющихся отклонений приведет к ухудшению, чем если бы данного вмешательства в процесс не происходило.
Заключение
Из вышесказанного вытекает, что остаточный шум серьезным образом влияет на предикторы. Чтобы проверить влияние ложной корреляции, необходимо ввести нулевое распределение ложных корреляций, применив для этого случайные перестановки порядков строк в матрице проекта так, чтобы предикторы были независимы от остаточного шума.
Проведя анализ распределения данных, следует вывод, что распределение корреляций между предикторами и остаточным шумом в необработанных данных, полученных в ходе сведения их из различных источников, которые могут быть по-разному организованы, что приводит к большему количеству ошибок сведения.
Но при исправлении ошибок стоит помнить о парадоксе Эдварда Деминга, суть которого заключается в том, что чрезмерное исправление ошибок становится источником ошибок, т.е. ряд ошибок может быть настолько редким, что выводы итога могут не пострадать, а борьба с ними при сборе данных приведет только к возникновению новых ошибок.
Список литературы:
- https://ru.wikipedia.org/wiki/Наука_о_данных
- https://habr.com/ru/post/267361/
- https://itnan.ru/post.php?c=1&p=456088
- https://ru.wikipedia.org/wiki/Большие_данные
Оставить комментарий