Статья опубликована в рамках: LXXIII Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 17 января 2019 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
ОПТИМИЗАЦИЯ ОБРАБОТКИ ИСХОДНЫХ ДАННЫХ В ПРОЦЕССЕ СТАТИСТИЧЕСКОГО УЧЕТА С ЦЕЛЬЮ ПОВЫШЕНИЯ КАЧЕСТВА ЭКОНОМИЧЕСКИХ ПРОГНОЗОВ
Под прогнозом [2] понимается научно обоснованное суждение о возможном состоянии объекта в будущем, об альтернативных способах и сроках его реализации. Социально-экономическое прогнозирование ‑ это процесс разработки экономических и социальных прогнозов на основе научных методов познания экономических и социальных явлений и использования всего комплекса методов и средств экономического прогнозирования.
При прогнозировании существуют два аспекта [3]: теоретико-познавательный и управленческий.
В основе экономического прогнозирования лежит предположение о том, что будущее состояние экономики во многом предопределено ее прошлыми и нынешними условиями. Будущее также содержит элементы неопределенности. Это объясняется следующими моментами:
- наличие более чем одного варианта возможного развития;
- эффективность экономических законов в будущем зависит не только от прошлого и нынешнего состояния экономики, но и от управленческих решений, которые еще предстоит принять и реализовать;
- неполнота степени познания экономических законов, недостаток и недостаточная достоверность информации.
То есть можно предположить, что основой правильности прогноза является полнота и корректность исходных данных [1], по которым он составлен.
Процесс сбора данных для аналитики условно можно разделить на несколько этапов:
- выбор сегментов аналитики – основных направлений исследований;
- разбиение сегмента на факторы аналитики, т.е. определение основных составляющих сегмента;
- сбор данных для каждого фактора.
Графически данные этапы можно представить в виде иерархического дерева (рисунок 1).
Рисунок 1. Процесс сбора статистических данных
Данная схема дает наглядное представление о том, что в процессе сбора данных начальные значения факторов усредняются. Следовательно, данные, собранные в рамках сегмента, дают значительную погрешность в отношении исходных данных.
На величину погрешности влияют следующие обстоятельства:
- примерно равное количество значений с минимальными и максимальными показателями;
- колоссальная разница между минимальными и максимальными показателями;
- присутствие в выборке ощутимой доли средних показателей.
Погрешность корректности данных можно представить в виде формулы
(1)
де Nср. – количество средних показателей (нормалей) в выборке;
N – общее количество показателей в выборке.
Следовательно, чем большее число показателей выборки имеют средние показатели, тем точнее данные по этой выборке.
Однако процесс определения нормали для определенной выборки не является однозначным.
Зачастую на практике используется метод определения среднего значения показателей выборки, которое и считается ее нормалью.
Если предположить, что в выборке присутствует большинство минимальных или максимальных показателей, а остальные показатели являются средними, то получение нормали выборки определением ее среднего значения даст патологию.
Одним из вариантов решения данной проблемы может быть кластеризация факторов по сходным признакам. Например, при сборе данных о доходах населения, исследуемые населенные пункты можно рассматривать в разрезе численности населения, количеству промышленных предприятий и т.п.
Среднее значение показателей выборки с наименьшей погрешностью корректности данных может быть выбрано как нормаль для всех объектов кластера.
Альтернативным вариантом может служить искусственное задание значения нормали для выборки, однако данный способ менее эффективен, потому что в нем отсутствует обоснованность данных.
Дальнейший анализ выборки представляет собой разделение полученных данных на норму и патологии. Причем патологии должны рассматриваться как положительные и отрицательные.
На данном этапе необходимо ввести понятие допустимого процента отклонения от среднего, т.е. определить оптимальный диапазон нормальных значений.
Использование фиксированного процента отклонения от нормали может дать существенную погрешность, т.к. с точки зрения визуального анализа отклонение значения от диапазона нормальных значений может быть минимальным, но с точки зрения вычислительной системы значение даже с минимальным отклонением будет отнесено к патологии.
Допустимый процент отклонения от среднего может быть получен путем анализа показателей выборки.
Обобщенная схема алгоритма данного процесса представлена на рисунке 2.
Рисунок 2. Обобщенная схема алгоритма определения допустимого процента отклонения от среднего
В результате будут получены три группы данных:
- группа, где значения показателей ниже среднего;
- группа, где значения показателей находятся в рамках оптимальных значений;
- группа, где значения показателей превышают среднее значение.
Затем оценивается количество показателей в каждой из полученных групп для определения приоритетной выборки.
В случае если размеры выборок в каких-либо группах равны, предлагается следующая система приоритетов:
- наивысший приоритет – группа с отрицательной патологией;
- средний приоритет – группа нормальных значений;
- низший приоритет – группа с положительной патологией.
С точки зрения общего состояния рассматриваемого фактора равенство выборок в группах не говорит о положительной динамике в его развитии, если не рассматривать эти данные в совокупности с данными прошлых периодов.
Для определения усредненного значения показателей в выбранной группе описанный алгоритм анализа выборки может быть повторен однократно или несколько раз пока среднее значение показателей выборки не будет достаточно усреднено, т.е. размеры выборок в группах с патологиями не будут сведены к минимуму.
С учетом полученных результатов или же с использованием приоритетов полученные данные передаются на следующий этап их обработки.
Описанный процесс позволит оптимизировать обработку статистических данных с целью повышения их корректности. Использование данного процесса оптимизации позволит сохранять корректность данных на всех этапах их обработки.
Список литературы:
- Конюк А.О. Основы статистического анализа данных // Актуальные проблемы гуманитарных и естественных наук. – 2017. – №1. – С. 171-174.
- Цыдыпова Т.Б. Научно-методические подходы к определению сущности социально-экономического прогнозирования // Статистика и экономика. – 2013. – №1. – С. 166-170.
- Эриашвили Н.Д., Тепман Л.Н. Прогнозирование в экономике // Вестник Московского университета МВД России. – 2013. – №1. – С. 193-197.
дипломов
Оставить комментарий