Статья опубликована в рамках: CL Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 05 июня 2025 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
ЛИНЕЙНАЯ РЕГРЕССИЯ В ЗАДАЧАХ ПРОГНОЗИРОВАНИЯ
LINEAR REGRESSION IN FORECASTING PROBLEMS
Roman Dynnik
student 2 term, Institute of Cyberphysical Systems, State University of Aerospace Instrumentation,
Russia, Saint Petersburg
АННОТАЦИЯ
В настоящей статье представлен обзор статистического метода прогнозирования – линейной регрессии. Актуальность работы заключается в малом количестве литературы на русском языке по данной тематике, а также ее высокой сложности, при отсутствии литературы обзорного характера, простым языком рассказывающей о данной тематике.
ABSTRACT
This paper presents a review of the statistical method of forecasting - linear regression. The relevance of the work lies in the small amount of literature in Russian on this topic, as well as its high complexity, in the absence of literature of a review character, simply speaking about this topic.
Ключевые слова: линейная регрессия, статистический метод, взвешенная линейная регрессия, прогноз.
Keywords: linear regression, statistical method, weighted linear regression, prediction.
Линейная регрессия – это статистический метод моделирования зависимости между переменными. Она используется для прогнозирования непрерывной (числовой) целевой переменной на основе одной или нескольких входных (независимых) переменных.
Линейная регрессия позволяет, на основе анализа больших массивов данных, выявить закономерности, найти причинно-следственные связи, с помощью регрессивных методов машинного обучения. Преимуществом использования регрессий является возможность предсказать зависимую переменную отталкиваясь от значений независимых.
Уравнение линейной регрессии выглядит следующим образом, формула (1):
(1)
где Y – результирующий признак; – факторные признаки;
– коэффициенты регрессии; a – свободный член уравнения;
– «ошибка» модели.
Коэффициенты подбираются таким образом, чтобы сумма квадратов разностей между наблюдаемыми () и предсказанными (
) значениями была минимальной, формула (2):
(2)
Этот подход позволяет получить наилучшую линейную аппроксимацию данных и называется методом наименьших квадратов [1].
У линейной регрессии есть ряд недостатков. В первую очередь это обязательная линейная зависимость между переменными, а также чувствительность к выбросам и мультиколлинеарности.
Взвешенная линейная регрессия – это расширенный вариант традиционной линейной регрессии. Отличие заключается в том, что каждой точке данных взвешенная линейная регрессия присваивает так называемый «вес», который определяет ее важность, надежность и информативность. Веса позволяют уменьшить влияние менее точных наблюдений и увеличить влияние заслуживающих наибольшее доверие. Вместе с этим уменьшается чувствительность модели к выбросам, так как модель способна минимизировать их эффект, присвоив им меньший вес, что, в свою очередь, повышает устойчивость модели. Также, веса можно использовать и в методе наименьших квадратов, умножая каждую ошибку на соответствующий вес.
Таким образом, взвешенная линейная регрессия, во-первых, позволяет повысить точность при работе с данными, дисперсия ошибок которых зависит от входных параметров. Во-вторых, кратковременные изменения влияют на результат меньше, так как им присваиваются меньшие веса. В-третьих, такая модель, также как и обычная линейная регрессия, обладает интерпретируемостью коэффициентов, в связи с чем можно проанализировать влияние разных факторов.
Для уточнения оптимальных параметров модели взвешенной линейной регрессии необходимо использовать функцию стоимости (числовая оценка ошибки модели, показывающая, насколько предиктивная оценка отличается от фактических данных).
Веса определяют важность каждого обучающего примера при обучении модели для конкретного x. Чем меньше расстояние, тем выше вес и влияние на модель [2]. Веса вычисляются по гауссовскому ядру, экспоненциальной функции затухания, формула (3):
(3)
Где – евклидово расстаяние между
и
,
– параметр ширины окна.
Модель обучается заново для каждого x, используя только надежные обучающие примеры, которые были близки к x. Надежность параметров определяется весом, значение которого зависит от параметра , при уменьшении которого, учитываются примеры, находящиеся ближе к x. Для нахождения оптимального значения
можно использовать кросс-валидацию с удержанием.
Основные задачи: краткосрочные прогнозы при стабильных условиях и использование в качестве базового метода для сравнения с более сложными алгоритмами. Ограничением является чувствительность к мультиколлинеарности.
Среди преимуществ статистических моделей можно выделить простоту реализации, недостатком же является условие наличия обширных входных данных.
Список литературы:
- А. В. Платонов. Машинное обучение: учебное пособие для вузов. 2-е издание. / Москва: Издательство Юрайт. 2025. – 89 с.
- Yaser S. Abu-Mostafa, Malik Magdon-Ismail, Hsuan-Tien Lin. Learning from Data. / Издательство AMLbook.com. 2021. – 213 с.
дипломов
Оставить комментарий