Статья опубликована в рамках: LXXIX Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 11 июля 2019 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Цветков С.А. К ВОПРОСУ О ФОРМИРОВАНИИ БОЛЬШИХ ДАННЫХ (BIG DATA) В СФЕРЕ ОБРАЗОВАНИЯ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. LXXIX междунар. студ. науч.-практ. конф. № 7(78). URL: https://sibac.info/archive/technic/7(78).pdf (дата обращения: 26.07.2026)

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

У данной статьи нет
дипломов

К ВОПРОСУ О ФОРМИРОВАНИИ БОЛЬШИХ ДАННЫХ (BIG DATA) В СФЕРЕ ОБРАЗОВАНИЯ

Цветков Семен Андреевич

студент, Факультет информационных технологий, Московский политехнический университет,

РФ, г. Москва

Макаренко Сергей Александрович

научный руководитель,

канд. экон. наук, доцент, Факультет экономики и управления, кафедра “Экономика и организация”, Московский политехнический университет,

РФ, г. Москва

АННОТАЦИЯ

Данная работа описывает суть и концепцию больших данных. Область ее применения и принципы работы в современном образовании. Рассмотрены основные преимущества использования больших данных. Рассмотрены траектория научно-технического развития и коммерческие перспективы технологий Big Data в области современного образования.

Ключевые слова: большие данные, анализ, алгоритм, образование.

Большие данные подразумевают под собой специфическую технологию, которая дает возможность анализировать и извлекать новые знания из массивов неструктурированных данных. Они позволяют при помощи набора математических и статистических инструментов формировать универсальную структуру данных и извлекать из бездействовавших ранее массивов полезную информацию, применяя ее в самых разных сферах деятельности.

Современные технологические возможности и большие массивы данных изменили существующие способы сбора, хранения и обработки информации. Тотальный переход общества в цифровое поле значительно увеличил количество данных. Новейшие методики позволяют значительно упростить процессы извлечения, управления, анализа и интерпретации массивов данных, а также повысить эффективность работы с ними. На настоящий момент, такие возможности вызывают интерес у специалистов в области высшего образования.

Изначально, обучение было основано на трех моделях, а именно поведенческая, когнитивная и конструктивистская модели [5]. Поведенческие модели опираются на наблюдаемые изменения в поведении студента для оценки результатов обучения. Когнитивные модели основаны на активном участии учителя в обучении, которое помогает в управляемом обучении. Конструктивистские модели, студенты должны учиться самостоятельно из имеющихся у них знаний.

Джордж Сименс (2004) [6] предложил новую модель под названием «Коннективизм», который был охарактеризован как «усиление обучения, знаний и понимания через расширение персональной сети».

Коннективизм или коннекционизм (англ. connectionism) — один из подходов в области искусственного интеллекта, когнитивной науки (когнитивистики), нейробиологии, психологии и философии сознания. Коннективизм моделирует ментальные или поведенческие явления процессами становления в сетях из связанных между собой простых элементов. Существует много различных форм коннективизма, но наиболее общие используют нейросетевые модели. В рамках этого течения предпринимаются попытки объяснить интеллектуальные способности человека, используя искусственные нейронные сети.

Коннективизм предложил обучение в нейросетях, которые улучшили опыт обучения студенты и сократили необходимость в непосредственном участии инструкторов. С тех пор традиционная среда обучения постепенно мутировала в среду обучения на базе сообщества.

Нейронные сети (нейросети) — это система соединенных и взаимодействующих между собой простых процессоров. Такие процессоры обычно довольно просты. Каждый процессор подобной сети имеет дело только с сигналами, которые он периодически получает, и сигналами, которые он периодически посылает другим процессорам. И, тем не менее, будучи соединёнными в достаточно большую сеть с управляемым взаимодействием, эти процессоры вместе способны выполнять довольно сложные задачи, поскольку нейронные сети обучаются в процессе работы.

В большинстве областей деятельности, где необходимо измерять параметры динамических объектов, а также их анализ и статистическую обработку, появились свои собственные системы, в том числе в области управления различных уровней, от федерального до уровня управления отдельных организаций и предприятий.

В аспектах некоторых автоматизированных систем статистики различаются функциональные и вспомогательные подсистемы. Эти подсистемы реализовали функции: сбора и обработки статистической информации; комплексный статистический анализ; контроль за выполнением плановых показателей; получить статистические данные, необходимые для планирования. Традиционно решаемые автоматизированной системой статистики мониторинговые задачи по своему назначению подразделяются на следующие:

Регламентные задачи, связанные с обработкой данных статистической отчетности на соответствующих структурных и территориальных уровнях автоматизированных статистических систем. Каждая такая нормативная задача связана с обработкой данных какой-либо конкретной формы статистической отчетности или нескольких, тесно связанных с экономическим и статистическим содержанием форм отчетности.

Задачи информационно-справочных служб предусматривают создание необходимых статических данных по запросу для быстрого составления отчетов, аналитических заметок и справок, которые не регулируются содержанием. Их решение обеспечивается автоматизированным банком данных в виде системы накопления, хранения, поиска, обработки и выдачи информации по запросу пользователей в той или иной форме.

Задачи углубленного экономического анализа основаны на использовании:

динамических рядов (построение полигонов, гистограмм частот и кумулятивных линий, подбор трендов из выбранного класса функций, сглаживание исходного динамического ряда, построение прогноза на основе выбранного тренда и авторегрессионой модели, анализ остатков на автокорреляцию и нормальность),
парной регрессии (определение уравнений линейной и нелинейной регрессии, оценка их статистических характеристик, подбор оптимальной формы связи по максимуму корреляционного отношения),
множественной регрессии (определение матрицы парных коэффициентов корреляции, определение уравнений множественной линейной регрессии),
факторного анализа (получение линейной модели, описываемой небольшим числом факторов, расчет значений “нагрузок на общие факторы” и самих общих факторов, представление интерпретации факторов на плоскости и в пространстве),
корреляционного анализа (получение корреляционных матриц, средних и стандартных отклонений).

Одним из основных факторов, который должен облегчить реализацию анализа больших данных в сфере образования, является значительное снижение затрат на хранение единицы информации. Уровень развития технологий хранения информации привел к снижению стоимости хранения одного гигабайта информации на 46 % за последние 9 лет, а за последние два десятилетия - более чем на 250 % [7]. Повсеместно, все больше субъектов переходят к электронному документообороту, а также к сохранению максимально возможного объема информации о взаимодействии со своими партнерами и обучающимися. Появляющиеся и упрощающиеся новые программные и аппаратные средства анализа данных позволяют получать новые знания из массивов.

Автор Д. Флойер рассказывает в своих работах о том, что все технологии для долгосрочного хранения данных со временем становятся все более дешевыми и показал на трех известных технологиях (технология NAND, дисковые носители, Tape (ленточная система хранения)), сколько они стоили раньше, сейчас и в будущем [10].

Рисунок 1. Прогнозы затрат на технологии хранения данных за 10-летний период 2014-2023 гг. (Стоимость/терабайт)

Согласно обновленному прогнозу International Data Corporation (IDC), в 2018 году объем рынка больших данных и бизнес-аналитики достигнет 166 млрд долларов, увеличившись на 11,7 % относительно прошлого года. В своих расчетах аналитики учитывают коммерческие закупки оборудования, программного обеспечения и услуг, связанных с аналитикой больших данных.

По прогнозам исследователей, рассматриваемый рынок будет расти в среднем на 11,9 % ежегодно и составит 260 млрд долларов в 2022 году. [8]

В будущем анализ больших данных, собираемых организациями, а также открытых данных поможет реализовать механизм, обеспечивающий эффективное взаимодействие между педагогами и обучающимися в режиме реального времени, что даст возможность провести глубокое всестороннее изучение моделей обучения, реализуемых образовательными организациями, и произвести их оптимизацию с учетом новых знаний, доступных благодаря анализу больших данных.

Образование является одной из областей, обслуживающих большие объемы данных. Учитывая внушительное количество часов занятий по шесть дней в неделю в течение нескольких лет, большое количество различных заданий, которые ученики выполняют, а также множество взаимодействий участников образовательного процесса между собой, можно утверждать, что в образовании новые технологии «Большие данные» очень актуальны и позволят перейти к новым, более эффективным образовательным моделям.

В настоящее время образовательные организации работают с небольшими данными. Данные, которые накапливаются в системе образования, структурированы и представлены в форме отчетов и статистики.

Большие данные важны для преподавателей и студентов, потому что они позволяют радикально изменить подход к образовательной политике, исследованиям и применению на практике. Использование этого подхода может привести к улучшению форм обучения: если десять лет назад работа с таким объемом данных считалась невозможной, то теперь картина изменилась благодаря новейшему программному обеспечению [2]. За рубежом возможность применения практик работы с большими массивами данных в нише высшего образования широко обсуждается в профессиональном сообществе. Работа с большими данными подразумевает оперативный сбор, обработку, анализ разнообразных, неструктурированных данных.

Накопленные ранее колоссальные объемы данных теперь имеют реальные перспективы стать источником информации, которая станет залогом не только коммерческого успеха, но и высоких стандартов образовательных услуг для всех обучающихся, вне зависимости от особенностей личности и специальных потребностей.

Опробованные методики позволяют студентам вузов проводить углубленные исследования, что делает полученные результаты достоверными.

Важно также отметить пользу использования больших данных для административного персонала высших учебных заведений. Успеваемость, посещаемость, стипендии и другая персональная информация о студентах подлежит постоянному сбору, обработке, анализу. Работа с таким объемом данных требует значительных трудозатрат. Автоматизация ставшей уже рутинной работы приведет к сбережению финансовых и кадровых ресурсов как в отдельных образовательных организациях, так и во многих других организациях.

Методики больших данных позволяют сформировать связку между видами образования и оценить прогресс и потенциал студента на протяжении всей его учебной истории от средне-специальной ступени до получения квалификации. Подобный подход в том числе может облегчить формирование индивидуального образовательного маршрута с учетом особенностей каждого обучающегося.

Многие авторы считают, что индивидуальный подход приведет к большей приверженности учащихся процессу обучения и повышению общего уровня удовлетворенности обучением.

Однако существуют некоторые барьеры, которые препятствуют внедрению методов больших данных в образовательный процесс. Во-первых, это распространение данных и непоследовательный доступ к ним (данные могут быть защищены паролем, храниться на персональных компьютерах и, следовательно, недоступны для агрегирования). Во-вторых, это страх потери данных, споры о продолжительности их хранения, проблемы с обучением персонала. В-третьих, конфиденциальность (проблемы безопасности данных и неправильное использование общих дисков).

Также принято считать, что для более лучшего понимания самих больших данных и чтобы понимать как сильно они отличаются от управления данными старой школы существуют три вектора: объем, скорость и разнообразие (Three V's: volume, velocity, and variety).

Объем - это вектор, наиболее ассоциируемый с большими данными, потому что объем может быть большим. В данном случаи, говорится о количестве данных, которые достигают огромных размеров.

Скорость - это мера того, как быстро поступают данные. Компании должны каждый день справляться с цунами информации. Они должны все это проглотить, обработать, зарегистрировать и каким-то образом позже получить его.

Разнообразие больших данных относится ко всем структурированным и неструктурированным данным, которые могут генерироваться людьми или машинами. Фотографии, видео, аудиозаписи, документы, книги, презентации, твиты - все это данные, но в целом они неструктурированны и невероятно разнообразны.

Важность развития обработки больших данных подчеркнута в работах Майер-Шенбергера и Кукьера, которые считают, что анализ больших данных и их всесторонняя оценка может привести к новым открытиям в различных областях науки [1].

Концепция больших данных и методы их анализа не так давно стали используются для управления предприятиями производственной сферы. Эти технологии могут быть применены и к сфере образования, включая вопросы принятия решений обработки данных, финансовое планирование и мониторинг успеваемости учащихся. Большие данные позволяют сохранять опыт обучения, дают картину обучения каждого обучающегося.

В наше время большие данные встречаются все чаще и чаще в разных сферах и сейчас все больше замечают, что с ними работать становится все легче и намного проще. Трудно сказать, где данные технологии анализа больших данных не окажутся востребованными в ближайшее время. Проанализировав данную информацию, специалисты электронного курса могут разрабатывать индивидуальные траектории обучения и адаптировать процесс обучения для удовлетворения потребностей каждого обучаемого. Анализ данных позволит улучшить модель обучаемого, позволит исследователям получить подробную информацию о характеристиках обучаемого или его состояниях, таких, как знания, мотивация, изучить какие факторы влияют на повышение усвояемости учебного материала, а что мешает этому процессу. Большие данные в высшем образовании позволят учителям своевременно получать информацию о студентах и быстро реагировать на любые изменения в учебном процессе, своевременно вносить изменения в учебный контент.

Список литературы:

Майер-Шенбергер В., Кукьер К. Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим. М.: Манн, Иванов и Фербер. 2014.
Ellaway R., Pusic M., Galbraith R., Cameron T. Developing the role of big data and analytics in health professional education. Med. Teach. 2014; 36 (3): 216–222.
Harper E.M., Parkerson S., Powering big data for nursing through partnership. Nurs. Adm. Q. 2015; 39 (4): 319–324.
Sensmeier J. Big data and the future of nursing knowledge. Nurs. Manag. 2015; 46 (4): 22–27.
Peggy A. Ertmer and Timothy J. Newby, “Behaviorism, cognitivism, constructivism: Comparing critical features from an instructional design perspective”, Performance improvement quarterly, Vol. 6, No. 4, pp. 50-72, 1993.
George Siemens, “Connectivism: A learning theory for the digital age”, International Journal of Instructional Technology & Distance Learning, Vol. 2, No. 1, 2005.
Hard Drive Cost Per Gigabyte // BackBlaze. URL: https://www.backblaze. com/blog/hard-drive-cost-per-gigabyte. (дата обращения: 19.06.2019)
Рынку Big Data и бизнес-аналитики прогнозируют рост на 12%. URL: http://www.dailycomm.ru/m/44617/ (дата обращения: 22.06.2019)
Volume, velocity, and variety: Understanding the three V's of big data // ZDNet. URL: https://www.zdnet.com/article/volume-velocity-and-variety-understanding-the-three-vs-of-big-data/ (дата обращения: 27.06.2019)
David Floyer, “The Emergence of a New Architecture for Long-term Data Retention”. URL: http://wikibon.org/wiki/v/The_Emergence_of_a_New_Architecture_for_Long-term_Data_Retention (дата обращения: 29.06.2019)