Статья опубликована в рамках: LXXIX Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 11 июля 2019 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
АНАЛИЗ ДАННЫХ В СРЕДЕ R
Экспериментальные данные, представленные в компьютерном формате, нуждаются в таких процедурах анализа и обработки, которые, делают очевидными закономерности и связи между отдельными компонентами и дают возможность предсказать новые факты.
В настоящее время программное обеспечение позволяет реализовать полный цикл технологического процесса, состоящего из следующих шагов:
- доступ к обрабатываемым данным;
- редактирование загруженных показателей;
- аннотирование данных;
- получение общих сведений о структуре данных;
- графическое представление данных и результатов вычислений в понятной информативной форме;
- моделирование данных;
- оформление результатов.
Альтернативой существующим коммерческим вычислительным системам стала бесплатная программная среда R, являющаяся современной и постоянно развивающейся статистической платформой общего назначения [1].
Система статистического анализа и визуализации данных R состоит из следующих основных частей:
- языка программирования высокого уровня R;
- большого набора функций обработки данных, собранных в отдельные пакеты;
- развитой системой поддержки.
Язык R – это мощный высокоуровневый объектно-ориентированный язык программирования и среда для статистических вычислений и визуализации исходных и расчётных данных, который позволяет решить множество задач в области обработки данных. В настоящее время язык R является одним из ведущих статистических инструментов в мире. Он активно применяется в различных сферах деятельности, например, в генетике, молекулярной биологии и биоинформатике, науках об окружающей среде (экология, метеорология и др.), экономических и сельскохозяйственных дисциплинах [2].
R – это бесплатная программа с открытым кодом, предназначенная для работы под управлением наиболее часто используемых операционных систем (Microsoft Windows, Mac OS, Linux и Unix) и поддерживающая тысячи специализированных модулей и утилит. Для удобства работы пользователя с R разработан ряд графических интерфейсов, в том числе RStudio, Rgui, JGR и др. Для среды разработки Eclipse существует специализированный R-плагин; доступ к функциям и среде выполнения R возможен из Python с использованием пакета RPy; работать с R можно из эконометрического пакета Gretl.
В качестве основных достоинств среды R можно отметить:
- бесплатность и кроссплатформенность;
- богатый арсенал используемых статистических методов и инструментов;
- качественная векторная графика;
- более 12 000 пакетов;
- гибкость в использовании:
- позволяет создавать / редактировать скрипты и пакеты;
- взаимодействует с другими языками программирования, такими как C/C++, Java и Python;
- может работать с форматами данных для SAS, SPSS и STATA;
- импортирует данные в формат TeX (LaTeX);
- активное сообщество пользователей и разработчиков;
- регулярные обновления, хорошая документация и техническая поддержка.
В качестве недостатков следует отметить:
- недостаточный объём информации на русском языке;
- относительная сложность в использовании для пользователя, незнакомого или малознакомого с программированием. Частично это можно сгладить, работая в GUIRcmdr, но для нестандартных решений всё же необходимо использовать консоль и командную строку.
Список литературы:
- Мастицкий С.Э., Шитиков В.К. (2014) Статистический анализ и визуализация данных с помощью R [Электронный ресурс]. – Режим доступа:http://r-analytics.blogspot.com.
- Ивин В.В. Применение языка R и среды RStudio для статистического анализа данных // Педагогический опыт: от теории к практике: материалы VI Междунар. науч.–практ. конф. (Чебоксары, 6 авг. 2018 г.) / редкол.: О.Н. Широков [и др.] – Чебоксары: ЦНС «Интерактив плюс», 2018. – С. 47-53.
дипломов
Оставить комментарий