Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: XIII Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 23 января 2017 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Торточаков С.В. СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ НА ПРИМЕРЕ РЯДА АНАЛИТИЧЕСКИХ ПЛАТФОРМ // Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ: сб. ст. по мат. XIII междунар. студ. науч.-практ. конф. № 2(13). URL: https://sibac.info/archive/meghdis/2(13).pdf (дата обращения: 13.05.2024)
Проголосовать за статью
Конференция завершена
Эта статья набрала 1 голос
Дипломы участников
У данной статьи нет
дипломов

СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ НА ПРИМЕРЕ РЯДА АНАЛИТИЧЕСКИХ ПЛАТФОРМ

Торточаков Сергей Владиславович

студент, кафедра бизнес-информатики СЗИУ РАНХиГС,

РФ, г. Санкт-Петербург

Задача состоит в анализе исходных данных и поиске возможных зависимостей. Кроме того, мы заинтересованы в построении регрессионной модели, оценке её характеристик, а также выполнении прогноза индекса производительности труда Y в зависимости от постоянных величин X.

Для решения задачи задействован ряд компьютерных программ, обеспечивающих статистическую обработку данных, таких как MS Excel, IBM SPSS Statistics и Deductor Studio.

В качестве исходных данных представлены индексы производительности труда по России и основным отраслям экономики РФ (по разделам Общероссийского классификатора видов экономической деятельности), в частности, в сфере строительства (X) и сфере обрабатывающих производств (Y) [1].

Таблица 1.

Исходные данные

Microsoft Excel

Обрабатывающие производства

Строительство

108,8

105,3

109,8

106,8

106

105,9

108,5

115,8

108,4

112,8

102,6

109,1

95,9

94,4

105,2

99,6

105,6

105,2

105,7

101,6

106

99,8

102,3

98,5

96,5

95,4

 

 

MS Excel является продуктом компании Microsoft, крупнейшего дистрибьютора программного обеспечения. Будучи приложением, предназначенным для работы с электронными таблицами, Excel также используется для решения задач, требующих проведения экономико-статистических операций, сопровождая процесс подробным визуальным контентом.

 

Рисунок 1. Построение диаграммы, добавление линии тренда

 

С помощью надстройки «Анализ данных» обратимся к регрессионному анализу. После выполнения необходимых операций переходим к регрессионной статистике, дисперсионному анализу и остаткам.

 

Рисунок 2. Регрессионная статистика

 

Под множественным коэффициентом R (Multiple R) здесь подразумевается степень зависимости независимых переменных X и зависимой переменной Y. По полученному значению (0.732) можно предположить, что между упомянутыми индексами существует умеренная линейная зависимость.

R-квадрат (R Square) – коэффициент детерминации; характеризует качество полученной регрессионной прямой. Мера определенности лежит в пределах интервала [0;1]. Принято считать модель вполне приемлемой, если значение коэффициента детерминации не менее 0.5.

Нормированный R-квадрат (Adjusted R Square) – скорректированный коэффициент детерминации; отличается от «оригинала» учётом дополнительных несмещенных оценок дисперсии. Этот параметр регрессионной статистики разумно использовать при добавлении новых факторов, так как при увеличении факторов модели увеличивается R-квадрат. Разница между значениями упомянутых параметров составляет ~ 0.043, что свидетельствует о высоком доверии к коэффициенту R-квадрат.

Стандартная ошибка (Standard Error) демонстрирует качество аппроксимации (приближения) результатов наблюдений. Логично предположить, что низкое значение ошибки говорит о лучшем качестве модели. В нашем случае стандартная ошибка равна 3.1225, что подчеркивает оптимальное качество модели.

Наблюдения (Observations) – число значений выборки.

 

Рисунок 3. Дисперсионный анализ (ANOVA – ANalysis Of Variance)

 

С целью получения уравнения регрессии определяется характеристика точности уравнения регрессии.

Величины «df» характеризует число степеней свободы k.

Столбец SS (суммы квадратов отклонений от среднего значения результирующего признака) представляет собой три значения:

Регрессионная сумма квадратов отклонений от среднего значения результирующего признака теоретических значений, рассчитанных согласно регрессионному уравнению (строка Regression);

Остаточная сумма отклонений исходных значений от теоретических значений (Residual);

Общая сумма квадратов отклонений исходных значений от результирующего признака (Total).

Чем лучше регрессионная сумма квадратов отклонений (или чем меньше остаточная сумма), тем лучше регрессионное уравнение аппроксимирует облако исходных точек.

Значения, которые нам демонстрирует столбец MS, характеризуют несмещенные выборочные дисперсии: регрессионную и остаточную.

F – критерий Фишера, значение статистики для проверки значимости уравнения регрессии.

В столбце «значимость F» вычислена вероятность полученного значения критериальной статистике. Поскольку полученное нами значение менее чем 0.05, делаем вывод, что уравнение регрессии значимо с вероятностью 95%.

 

Рисунок 4. Вывод коэффициентов уравнения регрессий

 

В столбце «коэффициенты» (Coefficients) представлены значения коэффициентов уравнения регрессии. Опираясь на эти данные, получаем уравнение:

 

Рисунок 5. Таблица остатков

 

Остатками принято считать отклонения отдельной точки (наблюдения) от линии регрессии (предсказанного значения). Иными словами, они представляют собой разность Y-спрогнозированного и исходного X.

Прогнозирование значений

Имея модель, вполне пригодную для дальнейшего прогнозирования, определим значения индексов.

Таблица 2.

Спрогнозированные значения индексов

Обрабатывающие производства

Строительство

108,8

105,3

109,8

106,8

102,29

99

103,78

102

105,28

105

106,78

108

 

 

Решение задачи в IBM SPSS Statistics 24

Одним из лидеров рынка в области статистических продуктов является IBM SPSS – аналитическая платформа, предназначенная для анализа данных маркетинговых и социальных исследований, использующаяся также в сфере бизнеса с целью обеспечения максимальной эффективности наряду с минимизацией возможных рисков.

 

Рисунок 6. Представление характеристики модели в SPSS

 

Как можем видеть, значения, полученные в пакете статистики SPSS совпадают с значениями в MS Excel.

Решение задачи в Deductor Studio

Аналитическая платформа Deductor представляет собой уникальный инструмент аналитика, обладающий широким спектром возможностей для построения моделей и оценки их качества.

 

Рисунок 7. Таблица параметров модели в Deductor

 

Стоит подчеркнуть, что значения параметров, полученные при помощи обработки данных в Deductor совпали с численными характеристиками модели, полученных в Excel и SPSS, что говорит о корректности выполнения работы.

Таким образом, нами была достигнута цель - реализация поставленной задачи, была представлена характеристика параметров статистики, уравнение модели наряду с прогнозом.

 

Список литературы:

  1. Индекс производительности труда по основным отраслям экономики, по России [электронный ресурс] – Режим доступа. – URL: http://www.gks.ru/free_doc/new_site/vvp/vvp-god/pr-tru.xlsx (дата обращения: 25.12.2016)
  2. Курзенев В.А., Наумов В.Н. Методы и модели прогнозирования социально-экономических процессов – СПб: РАНХиГС, 2012. – 566 с.
  3. Наумов В.Н. Элементы имитационного моделирования систем // СПб. : ИПЦ СЗИУ – фил. РАНХиГС, 2016. – 446 с.
Проголосовать за статью
Конференция завершена
Эта статья набрала 1 голос
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.