Статья опубликована в рамках: Научного журнала «Инновации в науке» № 1(62)

Рубрика журнала: Междисциплинарные исследования

Библиографическое описание:

Бунтова Е.В. СПОСОБЫ АНАЛИЗА РЕЗУЛЬТАТОВ НАБЛЮДЕНИЙ МЕТОДАМИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ // Инновации в науке: научный журнал. – № 1(62). – Новосибирск., Изд. АНС «СибАК», 2017. – С. 42-49.

СПОСОБЫ АНАЛИЗА РЕЗУЛЬТАТОВ НАБЛЮДЕНИЙ МЕТОДАМИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Бунтова Елена Вячеславовна

канд. пед. наук, доцент кафедры «Физика, математика и информационные технологии» ФГБОУ ВО Самаркой государственной сельскохозяйственной академии,

РФ, г.Самара

METHODS OF ANALYSIS OF OBSERVED RESULTS BY METHODS OF MATHEMATICAL STATISTICS

Elena Buntova

cand. ped. sciences, associate Professor of "Physics, mathematics and information technology" doctor of the Samarka state agricultural Academy,

Russia, Samara

АННОТАЦИЯ

В работе поставлена проблема применения современных методов математической статистики в процессе анализа данных научных исследований. Указаны основные причины возникшей проблемы. На примере анализа данных научных исследований агрономов показано применение некоторых методов математической статистики. В частности рассмотрены методы дисперсионного, корреляционного и регрессионного анализов, которые имеют место в практической деятельности специалиста - агронома при исследовании связи между случайными величинами.

ABSTRACT

In work the problem of application of modern mathematical statistics methods in data mining research. Are the main causes of the problem. By analyzing data of scientific research agronomists shows the use of some methods of mathematical statistics. In particular, the article considers methods of dispersion, correlation and regression analyses that take place in the practice of expert agronomist in the study of relationships between random variables.

Ключевые слова: дисперсионный анализ, фактор, влияние, процесс, урожайность, взаимодействие, коэффициент корреляции, регрессионная модель.

Keywords: analysis of variance, factor, influence, process, productivity, connectivity, correlation coefficient, regression model.

В профессиональной деятельности экономиста, инженера, агронома постоянно возникает необходимость получать информацию и извлекать из нее ответы на многочисленные вопросы.

Любое решение, которое принимает специалист, требует применения методов обработки результатов наблюдений. Например, приведет ли внедряемое новшество к повышению качества продукции, зависит ли наблюдаемый процесс от заданного фактора, существует ли связь между исследуемыми величинами или насколько сильна имеющаяся связь.

В настоящее время, несмотря на неоспоримую значимость математической статистики, многие выпускники высшей школы, инженеры, ученые имеют достаточно смутное представление о современных методах математической статистики. Для аспирантов математическая статистика является чаще всего «красивой рамкой» для диссертации.

Одна из причин возникшей проблемы – это ограниченное количество аудиторных часов, отведенных учебными планами вузов на изучение математической статистки. Другая причина – огромное количество литературы по математической статистике, например, более миллиона работ по статистическим методам, и разнобой в терминологии.

Таким образом, возникает проблема более тщательного подбора материала к преподаванию математической статистики для различных направлений подготовки специалистов. Из большого количества современных методов математической статистики следует выбрать те методы исследования количественной (качественной) информации о процессе, объекте или явлении, которые имеют наибольшее значение в работе специалиста определенного направления.

Задача состояла в том, чтобы исходя из часто решаемых задач практики специалистами направления подготовки – «агрономия», рассмотреть методы математической статистики, имеющие наибольшее значение в практической деятельности агронома.

Рассмотрим некоторые методы дисперсионного, корреляционного и регрессионного анализов, которые имеют место в практической деятельности специалиста - агронома при исследовании связи между случайными величинами.

Методами дисперсионного анализа устанавливается наличие влияния заданного фактора на изучаемый процесс, отображаемый наблюдаемой статистической совокупностью выборочных данных [3,5].

Например, требуется проверить влияние удобрения и препарата для обработки семян на урожайность по данным приведенным в таблице 1. Пусть фактор - это удобрение, а фактор - препарат для обработки семян. Таким образом, требуется провести двухфакторный дисперсионный анализ и проверить гипотезу о влиянии факторов и , их комбинаций на указанный признак – урожайность.

Таблица 1

Данные о видах удобрений и препаратах для обработки семян

Изучаемые факторы		Урожайность зерна с 1 га в ц
Азотные удобрения (фактор B)	Обработка семян (фактор A)	Повторность			Среднее
Азотные удобрения (фактор B)	Обработка семян (фактор A)	I	II	III	Среднее
Без удобрений	без обработки ()	29,8	27,2	25,0	27,3
	ЖУСС-1 ()	31,0	27,2	29,0	29,1
	ЖУСС-2 ()	30,3	36,4	32,0	32,9
	ЖУСС-3 ()	32,5	32,6	33,1	32,7
Аммонийная селитра	без обработки ()	35,9	27,1	34,4	32,5
	ЖУСС-1 ()	32,0	36,3	32,9	33,7
	ЖУСС-2 ()	32,4	38,8	40,0	37,1
	ЖУСС-3 ()	35,7	40,4	37,1	37,7
Мочевина	без обработки ()	33,5	34,2	28,7	32,1
	ЖУСС-1 ()	35,4	35,4	32,7	34,5
	ЖУСС-2 ()	37,4	37,3	39,0	37,9
	ЖУСС-3 ()	39,5	30,3	35,6	35,1
Сульфат аммония	без обработки ()	39,1	34,5	28,2	33,9
	ЖУСС-1 ()	33,9	35,3	35,6	34,9
	ЖУСС-2 ()	35,0	36,4	37,0	36,1
	ЖУСС-3 ()	39,5	36,1	36,5	37,4

По исходным данным составляется таблица 2.

Таблица 2

Исходные данные

B	A
B
	29,8; 27,2; 25,0	31,0; 27,2; 29,0	30,3; 36,4; 32,0	32,5; 32,6; 33,1
	35,9; 27,1; 34,4	32,0; 36,3; 32,9	32,4; 38,8; 40,0	35,7; 40,4; 37,1
	33,5; 34,2; 28,7	35,4; 35,4; 32,7	37,4; 37,3; 39,0	39,5; 30,3; 35,6
	39,1; 34,5; 28,2	33,9; 35,3; 35,6	35,0; 36,4; 37,0	39,5; 36,1; 36,5

Фактор имеет четыре уровня ,, фактор имеет четыре уровня .

Заменяются серии значений их средними и результаты записываются в таблицу 3, где i – номер столбца, j – номер строки.

Таблица 3

Средние значения результатов наблюдений

B	A
B
	27,3	29,1	32,9	32,7	122,0
	32,5	33,7	37,1	37,7	141,0
	32,1	34,5	37,9	35,1	139,6
	33,9	34,9	36,1	37,4	142,3
	125,8	132,2	144,0	142,9	544,9

Используя данные таблицы 3, вычисляются суммы согласно формулам

где – количество столбцов, – количество строк.

Согласно данным таблицы 3, соответствующие суммы принимают значения:

Вычисленные значения сумм используются для нахождения оценки дисперсий

Влияние фактора с достоверностью признается значимым, если выполняется условие

где критическое значение критерия Фишера.

Используются оценки дисперсий для проверки условия при уровне значимости

Таким образом, влияние фактора с достоверностью признается значимым.

Влияние фактора с достоверностью признается значимым, если выполняется условие

где критическое значение критерия Фишера.

Используются оценки дисперсий для проверки условия при уровне значимости

Таким образом, влияние фактора с достоверностью признается значимым.

Приведенный анализ предполагал независимость факторов и .

Для оценки влияния взаимодействия факторов вычисляется дополнительная сумма

где

является средним из параллельных наблюдений, т.е. при каждом сочетании факторов и на уровнях соответственно необходима серия наблюдений

Для оценки влияния взаимодействия факторов и вычисляется дисперсия

и проверяется значимость взаимодействия факторов и критерием

В исследуемом процессе выполняется условие

Таким образом, можно сделать вывод, что взаимодействие факторов и является фактором незначимым для урожайности.

Немаловажную роль в исследованиях специалиста – агронома имеет корреляционный анализ. Корреляционный анализ позволяет оценить силу влияния заданного фактора на изучаемый процесс [1,2,3].

Задача исследования состояла в том, чтобы выяснить, урожайность каких сельскохозяйственных культур в Самарской области наиболее зависима от природных условий, т.е. от среднего значения температуры в вегетативный период и от среднего значения количества осадков в этот же период. Данные представлены в таблице 4.

Таблица 4

Средняя урожайность культур, природные условия

Год	Средняя урожайность в ц/га				Природные условия
Год	Яровая пшеница	Подсол- нечник	Овощи	Овес	Среднее значение температуры воздуха (апрель/сентябрь)	Среднее значение количества осадков (апрель/сентябрь)
2005	8,7	8,9	272,39	10,5	16,1	29,3
2006	9,6	8,3	283,51	10,3	15,8	58,5
2007	11,4	8,2	273,20	12,6	16,4	57,2
2008	14,2	9,2	277,20	15,5	16,7	43,8
2009	13,1	8,6	271,90	17,2	16,6	32,9
2010	10,0	7,4	148,90	8,5	19,7	15,3
2011	16,3	12,0	230,30	19,6	16,1	75,6
2012	13,5	12,4	262,10	13,4	18,5	35,0
2013	16,1	14,9	255,40	14,2	17,2	58,2
2014	17,5	11,9	263,00	16,9	16,5	10,1
2015	14,5	11,1	257,40	17,6	17,0	11,5

Пусть - средняя урожайность яровой пшеницы, - средняя урожайность подсолнечника, – средняя урожайность овощей, - средняя урожайность овса, - среднее значение температуры воздуха, - среднее значение количества осадков.

Анализ зависимости между случайными величинами и , и с одновременной оценкой степени неслучайности их совместного изменения есть корреляционный анализ. Изменение случайной величины , соответствующее изменению случайной величины (или ), разбивается на две составляющие – стохастическую, связанную с неслучайной зависимостью от (или ), и случайную, связанную со случайным характером поведения и (или ). Стохастическая составляющая связи между и (или ) характеризуется коэффициентом корреляции. Коэффициент корреляции показывает, насколько связь между случайными величинами близка к строго линейной. Следует помнить, что коэффициент корреляции не учитывает возможной криволинейной связи между случайными величинами.

Выборочной оценкой коэффициента корреляции является случайная величина

где

При малых объемах выборки лучшей оценкой коэффициента корреляции является оценка [5]

Выборочный коэффициент корреляции для переменных и

Оценка коэффициента корреляции

Проверяется нулевая гипотеза о равенстве нулю модуля коэффициента корреляции при альтернативной гипотезе .

Корреляция между случайными величинами признается значимой, если , где - критическое значение.

Критическое значение Таким образом, , что говорит о том, что гипотеза о значимости корреляции между случайными величинами и отклоняется.

Выборочный коэффициент корреляции для переменных и

Оценка коэффициента корреляции

Используя множественную корреляцию, установим существенность взаимосвязи переменной с совокупностью переменных , . Выборочный множественный коэффициент корреляции определим через парные коэффициенты корреляции

с учетом того, что

Для проверки гипотезы при альтернативной гипотезе используется статистика

где - число переменных.

Расчетное значение статистики

Критическое значение статистики

Таким образом, и соответствующая корреляция признается незначимой.

Таким образом, делается вывод о том, что между средней урожайностью яровой пшеницы и погодными факторами: температурой воздуха и количеством осадков, нет тесной линейной зависимости.

Аналогично устанавливается корреляционная зависимость между случайными величинами и .

Проведенный анализ дает возможность сделать вывод, что линейная зависимость между погодными факторами, которые определяет температура воздуха и среднее количество осадков, и урожайностью сельскохозяйственной культуры, наблюдается только у овощей.

Рассмотренные методы дисперсионного и корреляционного анализа позволяют выявить наличие связи между случайными величинами и оценить силу этой связи. Кроме решения перечисленных задач, на практике часто представляет интерес функциональный вид связи между случайными величинами. Следует помнить, что любая функция распределения полностью определяется своими параметрами [3,5]. Изменение функции распределения случайной величины Y от случайной величины X, заданной зависимостью

где - среднее значение переменной Y, называется регрессией Y по X.

Цель регрессионного анализа состоит в объяснении поведения зависимой переменной . Методы регрессионного анализа позволяют выбрать математическую модель и оценить адекватность отражения моделью установленной взаимосвязи случайных величин.

По выборочным данным можно найти только оценку истинной регрессии, содержащую ошибку, связанную со случайностью выборки. В основе регрессионного анализа лежит принцип наименьших квадратов, в соответствии с которым в качестве уравнения регрессии выбирается функция, доставляющая минимум сумме квадратов отклонений . Вид функции определяется исходя из общего графического анализа зависимости между Y и X .

Схема регрессионного анализа включает в себя: нахождение выборочной оценки истинной регрессии, оценки статистической значимости выборочной регрессии в сравнении с безусловным разбросом значений , характеризующимся дисперсией, определение доверительных областей с заданной вероятностью включающих в себя истинную регрессию.

В качестве примера, рассмотрим построение множественных регрессионных моделей, показывающих зависимость урожайности сельскохозяйственных культур Самарской области от погодных условий в виде среднего значения температуры воздуха и среднего значения количества осадков в вегетативный период.

Корреляционный анализ позволил сделать вывод о том, что урожайность овощей имеет линейную зависимость от погодных условий. Таким образом, регрессионная модель примет вид Методом наименьших квадратов получим оцененное уравнение множественной линейной регрессии . Согласно методу наименьших квадратов составляется система нормальных уравнений, которая позволят определить оценки параметров уравнения регрессии, соответствующие минимальным отклонениям

Согласно данным таблицы 4 составляется система нормальных уравнений

Оцененное уравнение регрессии примет вид

Далее, следует выяснить какая часть дисперсии переменной , объясняется оцененным уравнением регрессии, т.е. определить коэффициент детерминации

где и - выборочные дисперсии, которые вычисляются по формуле

Учитывая данные таблицы 5, определяют коэффициент детерминации .

Таблица 5

Урожайность овощей согласно эмпирическим данным и согласно данным модели

	272,39	283,51	273,2	277,2	271,9	148,9	230,3	262,1	255,4	263,0	257,4
	274,59	283,23	268,63	260,73	262,64	186,67	276,76	216,68	249,3	263,9	251,9

Выборочные дисперсии равны

Тогда коэффициент детерминации

т.е. 57,6% дисперсии объясняется оцененным уравнением регрессии.

Скорректированный коэффициент детерминации рассчитывают по формуле

где - коэффициент детерминации, – число наблюдений, - число коэффициентов в модели. Уменьшение значения скорректированного коэффициента детерминации может указывать на то, что одна из переменных в модели незначимо влияет на .

Высокий скорректированный коэффициент детерминации не говорит о том, что верно выявлена причинно – следственная связь между переменными и не гарантирует отсутствия смещения оценок из-за некорректной спецификации.

Поэтому стоить обращать внимание на другие характеристики качества уравнения регрессии.

Согласно предпосылкам модели, случайные ошибки характеризуются постоянным разбросом или постоянной дисперсией, и данную дисперсию необходимо оценить, так как дисперсия – это характеристика влияния случайных факторов модели.

Несмещенная оценка дисперсии случайных ошибок имеет вид

где - сумма квадратов остатков, – число наблюдений, - число коэффициентов в модели.

Несмещенная оценка дисперсии используется для расчета стандартных ошибок коэффициентов и стандартной ошибки регрессии.

Стандартная ошибка регрессии вычисляется по формуле

Стандартная ошибка регрессии измеряет среднюю величину ошибки модели. Данная характеристика точности модели позволяет сравнивать между собой разные модели. Чем меньше стандартная ошибка регрессии, тем лучше модель, т.е. модель точнее.

Достоверность модели также оценивается по средней ошибке аппроксимации

Модели, имеющие среднюю ошибку аппроксимации менее 5%, считаются хорошими, менее 15% - удовлетворительными, а более 15% - неудовлетворительными.

Следует провести тестирование некоторых гипотез о качестве модели.

Начинают с теста на значимость коэффициента регрессии.

Рассматриваемая модель

Тестируемая гипотеза - коэффициент при переменной равен нулю, т.е. переменная не оказывает значимого влияния на переменную .

Альтернативная гипотеза , т.е. переменная оказывает значимое влияние на переменную .

На первом шаге тестирования значимости коэффициента регрессии необходимо вычислить расчетное значение – статистики

где стандартная ошибка коэффициента , которая определяется по формуле

На втором шаге выбирается уровень значимости, т.е. вероятность ошибки первого рода, вероятность отклонить гипотезу , если на самом деле она верна (

На третьем шаге определяют критическое значение статистики из таблиц - распределения Стьюдента [4], которое зависит от уровня значимости и числа степеней свободы, которое равно

На четвертом шаге сравнивается расчетное и критическое значение – статистик. Если , то гипотезу нет оснований отклонить. В этом случае делают вывод о том, что переменная не оказывает значимого влияния на переменную . Коэффициент при переменной , в данном случае, незначим.

В рассматриваемом случае , следовательно, переменная оказывает существенное влияние на переменную

Доверительный интервал для оценки коэффициента регрессии строится согласно формуле

где - оценка коэффициента , - табличное значение статистики, - стандартная ошибка коэффициента .

Доверительный интервал – это интервал, внутри которого истинное значение оцениваемого коэффициента находится с некоторой заданной вероятностью.

Аналогично оценивается параметр .

Тестируемая гипотеза . Альтернативная гипотеза .

Расчетное значение критерия

где

В рассматриваемом случае , следовательно, переменная не оказывает существенное влияние на переменную

Доверительный интервал для оценки коэффициента регрессии строится согласно формуле

где - оценка коэффициента , - табличное значение статистики, - стандартная ошибка коэффициента .

В случае множественной регрессии недостаточно тестировать гипотезу для отдельной переменной. Возникает необходимость тестирование значимости уравнения в целом.

Рассматриваемая модель

Тестируемая гипотеза , т.е. переменные не оказывают значимого влияния на переменную или факторы, включенные в модель не существенны.

Альтернативная гипотеза хотя бы одна из переменных оказывает значимое влияние на переменную .

Алгоритм проведения теста следующий.

На первом шаге вычисляется расчетное значение статистики

где – коэффициент детерминации, - число наблюдений модели, - число коэффициентов модели.

На втором шаге выбирается уровень значимости

На третьем шаге находится критическое значение – статистики из таблиц - распределения Фишера [4], которое зависит от уровня значимости и числа степеней свободы, которые равны и

На четвертом шаге сравниваются расчетное и критическое значение – статистик. Если , то нулевая гипотеза не отклоняется, т.е. все переменные не оказывают значимого влияния на переменную . В данном случае уравнение регрессии называется незначимым.

Так как , то уравнение регрессии называется значимым.

Полученная модель удовлетворительная, чтобы модель была хорошая, изменяются значения параметров, стоящих при переменных в пределах найденных интервалов для и с целью улучшения качества модели. Особое внимание уделяется изменению параметра , которое имеет наибольшую значимость в построенной модели.

Аналогично строятся и оцениваются модели регрессии, показывающие зависимости изменения средних значений переменных от изменения значений регрессоров .

Таким образом, в работе рассмотрены методы математической статистики, имеющие наибольшее значение в практической деятельности агронома – это методы дисперсионного, корреляционного и регрессионного анализов.

Список литературы:

Ван дер Варден Б.Л. Математическая статистика / Пер. с нем.-М.: ИЛ, ИЛ, 1960.- 436 с.
Закс Л. Статистическое оценивание / Пер. с нем.-М.: Статистика, 1976.- 598 с.
Крамер Г. Математические методы статистики / Пер. с англ.-М.: Мир, 1975.- 648 с.
Келли Т.Л. Статистические таблицы / Пер. с англ..-М.: ВЦ АН СССР, 1966.- 193 с.
Кобзарь А.И. Прикладная математическая статистика. Для инженеров и научных работников.-М.: ФИЗМАТЛИТ, 2006.-816 с.