Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: Научного журнала «Студенческий» № 4(300)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6

Библиографическое описание:
Озтюрк Г. МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ И ИХ ПРИМЕНЕНИЕ ДЛЯ ПРОГНОЗИРОВАНИЯ ФИНАНСОВЫХ ПОКАЗАТЕЛЕЙ // Студенческий: электрон. научн. журн. 2025. № 4(300). URL: https://sibac.info/journal/student/300/360833 (дата обращения: 11.02.2025).

МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ И ИХ ПРИМЕНЕНИЕ ДЛЯ ПРОГНОЗИРОВАНИЯ ФИНАНСОВЫХ ПОКАЗАТЕЛЕЙ

Озтюрк Гюлай

студент, факультет инжиниринга и информационных технологий, Казахстанско-Немецкий университет,

Казахстан, г. Алматы

Дадаева Ирина Георгиевна

научный руководитель,

канд. техн. наук, доц., Казахстанско-Немецкий университет,

Казахстан, г. Алматы

MACHINE LEARNING METHODS AND THEIR APPLICATION TO FINANCIAL PERFORMANCE FORECASTING

 

Gyulay Oztyurk

student, Faculty of Engineering and Information Technology, Kazakh-German University,

Kazakhstan, Almaty

Irina Dadaeva

scientific supervisor, Associate Professor, Candidate of Technical Sciences, Kazakh-German University,

Kazakhstan, Almaty

 

АННОТАЦИЯ

В статье рассматриваются методы машинного обучения для анализа и прогнозирования финансовых показателей, которые на сегодняшний день являются актуальными в сфере цифровых технологий. Из-за быстрого развития информационных технологий машинное обучение становится одним из основных инструментов в различных сферах и областях. В особенности одним из них является финансовая среда, в которой машинное обучение используется для прогнозирования данных и оптимизации рисков, так и для принятия решений на основе используемых исторических данных. В статье рассматриваются основные методы машинного обучения, которые используются для прогнозирования данных и выявления основных принципов, и динамичность. К таким методам относятся линейная и логистическая регрессия, методы опорных векторов (SVM), K-means (K-средних) и Random forest (случайный лес).

ABSTRACT

The article discusses machine learning methods for analyzing and predicting financial indicators that are currently relevant in the field of digital technologies. Due to the rapid development of information technology, machine learning is becoming one of the main tools in various fields and fields. One of them in particular is the financial environment, in which machine learning is used to predict data and optimize risks, as well as to make decisions based on the historical data used. The article discusses the main machine learning methods that are used to predict data and identify the basic principles and dynamism. These methods include linear and logistic regression, support vector machine (SVM), K-means, and Random forest.

 

Ключевые слова: машинное обучение, финансы, прогнозирование, финансовые показатели, регрессия, линейная регрессия, логистическая регрессия, случайный лес, методы машинного обучения, аналитика данных.

Keywords: machine learning, finance, forecasting, financial indicators, regression, linear regression, logistic regression, random forest, machine learning methods, data analytics.

 

Введение. В современном мире с развитием информационных и цифровых технологий применяются всё больше методов машинного обучения, которые используются в таких сферах, как маркетинг, медицина, торговля, электронная коммерция и другие. В особенности можно выделить такую сферу, как финансы, которая используют машинное обучение для обработки и анализа данных.  Для того, чтобы получить более точные данные от прогнозирования машинного обучения используют несколько алгоритмов и методов, которые позволяют более оптимизировать такие процессы, как принятие решений в условиях неопределённости и неясности с увеличением объёма доступных данных.

Методы машинного обучения в финансовой сфере помогают не только повысить точность прогнозирования таких показателей, как акций, инвестиций, оценки риска и т.д., но и также помогают выявить зависимости между данными и оптимизировать их. На сегодняшний день для прогнозирования финансовых показателей используются такие методы, как линейная и логистическая регрессия, методы опорных векторов, Random forest и K-средних.

Исходя из всего этого, целью данной работы является исследование методов машинного обучения для прогнозирования и анализа финансовых показателей. Также оценка эффективностей методов в прогнозировании финансовых показателей.

1 ОСНОВНЫЕ МЕТОДЫ И ИХ ПРИМЕНЕНИЕ

В настоящее время из-за стремительно развивающихся технологий сфера информационных и цифровых технологий значительно расширилась. Одной из них является появление машинного обучение в данной сфере, которая также является одним из классов методов искусственного интеллекта.

Машинное обучение (ML, Machine Learning) – это область искусственного интеллекта, которая позволяет компьютерам самостоятельно находить решения задач, обучаясь на данных. В отличие от традиционного подхода к программированию, где разработчик пишет четкие инструкции, машинное обучение создает модели, которые находят закономерности в данных и применяют их для выполнения задач [1].

В данном разделе будут рассмотрены такие методы машинного обучения, которые используются для прогнозирования финансовых показателей, как линейная и логистическая регрессия, метод опорных векторов, K-средних и случайный лес.

  1. Линейная регрессия

Линейная регрессия - это популярный алгоритм обучения регрессии, который изучает модель, представляющую собой линейную комбинацию характеристик входного примера [2, с. 29].

В общем виде линейная модель выглядит как объект x = (, , ..., ) с набором признаков с общим числом d. Формула линейной регрессии:  

где:

Y — это зависимая переменная (отклик), которую мы пытаемся предсказать;

β₀, β₁, β₂, ..., βₖ — это коэффициенты регрессии (веса), которые умножаются на соответствующие предикторы X₁, X₂, ..., Xₖ. Веса предикторов определяют, как каждый предиктор влияет на зависимую переменную. Вместо термина «предиктор» могут использоваться другие понятия: «независимая переменная», «фактор», «входные данные» и пр.

ε — это расхождение между предсказанными значениями и фактическими, нормально распределенная случайная величина [3].

Исходя из данного определения, линейная регрессия в сфере финансов используется для прогнозирования финансовых показателей с помощью нахождения зависимостей между различными переменными, которые помогают спрогнозировать значения показателей на основе имеющихся данных.

Примером использования регрессии может быть модель, которая имеет связь между компанией и такими факторами, как затраты, доходы, прибыль, расходы и другие. С помощью данных факторов регрессия помогает прогнозировать будущие доходы, расходы или же прибыль на основе имеющихся данных. Кроме того, линейная регрессия позволяет построить такую модель данных, которая осуществляет планирование финансовых показателей, анализировать влияние внешних или внутренних факторов на финансовые показатели предприятия, оценить, например, стоимости акций компании или же провести оценку влияния внешних факторов на финансовые показатели.

Таким образом, можно сделать вывод, что линейная регрессия является эффективным метод для прогнозирования финансовых показателей, когда между переменными существует линейная зависимость. Но также стоит отметить, что, если зависимость между показателями нелинейная или они взаимозависимы, этот метод не будет подходить. В таких случаях для получения более точных прогнозов нужно использовать более сложные методы машинного обучения.

1.2 Логистическая регрессия

Логистическая регрессия – это алгоритм машинного обучения, который используется для решения задачи бинарной классификации, то есть разделения данных на два класса. Она получила свое название благодаря тому, что использует логистическую функцию для прогнозирования вероятности принадлежности объекта к одному из классов [4].

Логистическая регрессия фактически строится на основе линейной регрессии, преобразуя его с помощью сигмовидной функции. Формулой это выражается:

где:

Y — бинарный выходной результат (0 или 1);

X — вектор признаков, используемый для прогнозирования Y;

P(Y=1|X) — вероятность того, что Y равно 1 при заданном X;

  — коэффициенты модели, которые нужно определить в ходе обучения, чтобы достичь наилучшего соответствия данных;

e — число Эйлера [4].

Основываясь на данном определении, можно сказать, что логистическая регрессия используется для прогнозирования вероятности наступления определенного события, которое может иметь два возможных исхода. Например, результатами прогнозирования могут быть ответы «да» или «нет», «успех» или «неудача».

В финансовой сфере данный метод применяется для прогнозирования вероятности, например, выполнения клиентом своих обязательств перед компанией, вероятности ухода клиента к другой компании, или же прекращения использования услуг компании. Этот метод также подходит для применения прогнозирования финансовых рисков, например, связанных с кредитованием в банках или при инвестиции. Кроме того, логистическая регрессия может быть использована для оценки целевых переменных, таких как уровень дохода или прибыльность компании, на основе различных факторов.

Исходя из всего этого, логистическая регрессия применяется для определения вероятностных зависимостей между переменными и принятия решений на основе этих зависимостей. В особенности это бывает полезно для прогнозирования и анализа финансовых показателей определенной компании.

1.3 Метод опорных векторов (SVM)

SVM (Support Vector Machines) – это алгоритм машинного обучения, используемый для решения задач классификации, который строит гиперплоскость в n-мерном пространстве для разделения объектов двух или более классов. Гиперплоскость выбирается таким образом, чтобы максимизировать расстояние между гиперплоскостью и ближайшими объектами разных классов (зазор). Объекты, которые расположены ближе всего к гиперплоскости, называются опорными векторами [5]. Исходя из данного определения, этот метод эффективен при работе с моделями, которые имеют сложные зависимости или обрабатывают большие объемы данных.

В финансовой сфере метод опорных векторов используется для прогнозирования тенденций на финансовых рынках, цен акций и доходности, классификации рыночных условий, оценки финансовых рисков, а также для выявления ключевых факторов, которые влияют на финансовые показатели. Следовательно, данный метод помогает классифицировать компании по вероятности исполнения обязательств или получения прибыли. То есть метод опорных векторов анализирует различные факторы и классифицирует данные, чтобы спрогнозировать вероятность того, что компания не сможет выполнить свои обязательства. Кроме того, данные метод используется для классификации данных, основанных на финансовых показателях компании и их данных, что может помочь прогнозировать рыночные условия или тенденции.

Таким образом, метод опорных векторов является одним из эффективных методов машинного обучения, который может работать с большими объемами данных и сложными зависимостями. При анализе финансовых показателей данный метод позволяет не только определить взаимодействия между переменными, включая нелинейные зависимости, но и разделять данные на категории, а также предсказывать значения для определенных показателей с использованием регрессии.

1.4 Метод K-средних (K-means)

К-средние – это алгоритм кластеризации в машинном обучении, который может очень быстро и эффективно сгруппировать немаркированный набор данных всего в нескольких итерации. Он работает, маркируя все экземпляры в кластере ближайшим центроидом. Когда экземпляры сосредоточены вокруг определенной точки, эта точка называется центроидом[6]. Исходя из этого, данный алгоритм группирует данные в несколько кластеров, каждый из которых представляют собой набор объектов по схожим определенным признакам. Таким образом, задачей алгоритма является в классификации входных данных на основе их схожести. Процесс кластеризации происходит по мере работы алгоритма. Он стремится минимизировать суммарное квадратичное отклонение точек кластеров от их центров:

min,

где k – количество кластеров,  – полученные кластеры (i, k),  – центр масс векторов x из кластера  [7].

В финансовой сфере данный алгоритм может использоваться для сегментации клиентов и рынка, прогнозирования финансовых рисков, определение факторов, влияющих на финансовые показатели компании, и также прогнозировании трендов и поведения на финансовых рынках. Например, компании могут использовать метод K-средних для группировки клиентов по финансовым характеристикам, что позволяет разделить их на кластеры с похожими финансовыми показателями, такими как доходы, расходы, кредитная история и другие. Эти сегменты могут затем использоваться для анализа платежеспособности клиентов, оценки риска увеличения задолженности или других финансовых показателей.

Кроме того, стоит отметить, что алгоритм может быть полезен для выявления аномальных групп или определение вероятности риска. Например, данный метод может выделять группы клиентов или операций, которые сильно отличаются от остальных по своим финансовым показателям, что поможет обнаружить подозрительные транзакции. Это может помочь в особенности таких сферах, как банковское дело или электронная коммерция, где нужно выявлять потенциальные мошеннические действия.

Исходя из всего этого, данный метод является одним из самых эффективных методов машинного обучения, который находит широкое применения в финансах, особенно в финансовом анализе. В особенности метод К-средних является эффективным для сегментации данных, анализа рисков, а также оптимизации процессов и принятия инвестиционных решений. Таким образом, можно сказать, что алгоритм помогает обрабатывать и анализировать данные, чтобы принимать более обоснованные и эффективные решения в разных областях бизнеса.

1.5 Случайный лес (Random forest)

Random forest (он же «случайный лес») – это алгоритм машинного обучения, который состоит из множества отдельных независимых «решающих деревьев». Чтобы повысить качество предсказаний, в машинном обучении используют ансамбли - алгоритмы, сочетающие сразу несколько моделей [8]. Формулой данного метода представляется следующим образом, где используется итоговый классификатор :

где:

N – количество деревьев;

i – счетчик для деревьев;

b – решающее дерево;

 – сгенерированная выборка случайным образом из исходных данных [9].

Исходя из этого определения, в финансовой сфере данный алгоритм может использоваться в прогнозировании финансовых показателей, из-за того, что эффективно работает с большим объемом данных, и также со сложными данными. В особенности метод эффективный, когда данные имеют множество факторов или зависимостей, а также уменьшает риск переобучения модели.

Основываясь на этом, в финансовой сфере этот алгоритм может быть применен для различных задач, таких, как прогнозирование финансовых показателей, оценка кредитных рисков, анализ финансовой устойчивости компании, а также для прогнозирования цен акций и финансовых инструментов. Например, с помощью данного метода можно оценить вероятность выполнения или невыполнения обязательств клиентов или компанией. Метод анализирует различные финансовые показатели, такие как доходы, платежи, задолженности и другие. На основе этих данных метод принимает решения о том, является ли клиент или компания рисковым для кредитования. Кроме того, стоит отметить, что случайный лес используется для прогнозирования финансовых показателей, учитывая также предыдущие данные о компании. Также данный метод может определить закономерности, что помогает в принятии более обоснованных инвестиционных решений.

Таким образом, случайный лес применяют для анализа и прогнозирования финансовых показателей. В особенности данный метод является эффективным, когда необходимо работать с большими объемами информации и сложными зависимостями. Данный метод используется также для оценки рисков, анализа тенденций и решения других важных задач в сфере финансов.

2 СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ

В данном разделе представлен сравнительный анализ методов машинного обучения, которые были рассмотрены в предыдущем разделе. Оценка будет проводиться по различным ключевым аспектам каждого метода, такими как точность, сложность модели, способность работы с большим объемом данных и скорость обучения. Данные критерии важны в сфере финансов потому, что точность прогноза и эффективная работа с большим объемом данных влияют на принятие решений и выбор стратегии компании. Сравнительный анализ представлен в таблице 1.

Таблица 1.

Сравнительный анализ методов машинного обучения

Метод

Линейная регрессия

Логистическая регрессия

Метод опорных векторов (SVM)

К-средних (K-means)

Случайный лес (Random Forest)

Точность

Высокая для линейных зависимостей, но не подходит для сложных нелинейных связей

Средняя для сложных зависимостей, но хороша для задач бинарной классификации

Высокая, в особенности для нелинейных зависимостей

Средняя для кластеризации, зависит от выбора центроидов 

Высокая, в особенности для многомерных данных и сложных зависимостей

Сложность модели

Низкая, так как модель может быть простой для понимания

Низкая, так как проста для понимания

Высокая, так как модель является сложной

Средняя, так как модель является простой

Высокая, так как модель является сложной

Способность работать с большими данными

Может работать с небольшими и средними объемами данных

Может работать с небольшими и средними объемами данных

Может работать с небольшими данными, но неэффективно работает с большим объемом данных

Может работать со всеми типами данных, в особенности эффективен для кластеризации больших объемов данных

Может работать с большими данными

Скорость обучения

Быстро обучается

Быстро обучается

Долго обучается, но эффективен после обучения

Долго обучается, так как требует несколько итераций для достижения точных результатов

Долго обучается из-за ансамбля деревьев, но эффективен при большом объеме данных

 

Сравнительный анализ был проведен с использованием данных, которые содержат структурированные финансовые показатели. На основе этих данных методы машинного обучения были применены для решения задач, таких как прогнозирования, классификации и также кластеризации.

Таким образом, выбор метода машинного обучения зависит от множества факторов, таких как объем данных, точность прогнозирования и анализ. Примером могут являться задачи с большим объемом данных, в которых важна точность. Для этого применяются методы случайного леса или опорных векторов, которые могут работать с большим объемов данных, но недостатками являются высокая сложность модели и долгое обучение модели. А для простых задач могут применятся линейная и логистическая регрессия, в которых быстрое обучение модели являются важными.

ЗАКЛЮЧЕНИЕ

В данной статье рассмотрены основные методы машинного обучения, которые применяются в сфере финансов, как прогнозирование и анализ финансовых показателей. Основными методами, которые значительно влияют на эффективность финансового анализа и принятия решений являются такие, как линейная и логистическая регрессия, метод опорных векторов К-средних и случайный лес. Исходя из анализа, который был проведен, каждый из этих методов имеет свои особенности, преимущества и ограничения. Из-за этого данные методы могут применяться в различных типов задач в финансовой сфере.

Таким образом, выбор метода машинного обучения зависит от множества факторов, таких как объем данных, тип зависимости и необходимая точность прогноза. Исходя из всего этого, применение требуемого метода может позволить значительно повысить точность анализа и принятия более обоснованных решений в сфере финансов.

 

Список литературы:

  1. Машинное обучение: что такое и где применяют. [электронный ресурс] – Режим доступа. – URL: https://surl.li/rmfxrd (дата обращения: 15.01.2025).
  2. Burkov A. The Hundred-Page Machine Learning Book, 2019. – 152 с.
  3. Что такое линейная регрессия [Электронный ресурс] – Режим доступа. – URL: https://robotdreams.cc/blog/437-shcho-take-liniyna-regresiya (дата обращения: 30.01.2025).
  4. Линейные модели для классификации: Логистическая регрессия. [электронный ресурс] – Режим доступа. – URL: https://python-school.ru/blog/osnovy-ml/logisticregression/ (дата обращения: 17.01.2025).
  5. Модели для классификации: метод опорных векторов (SVM). [электронный ресурс] – Режим доступа. – URL: https://python-school.ru/blog/svm_classifier/ (дата обращения: 30.01.2025).
  6. Кластеризация K-средних в машинном обучении. [электронный ресурс] – Режим доступа. – URL: https://surl.li/tzhosh (дата обращения: 17.01.2025).
  7. Митяков С.Н., Митяков Е.С. Машинное обучение в задачах исследования инновационных процессов. [электронный ресурс] – Режим доступа. – URL: https://cyberleninka.ru/article/n/mashinnoe-obuchenie-v-zadachah-issledovaniya-innovatsionnyh-protsessov/viewer (дата обращения: 15.01.2025).
  8. Что такое random forest? [электронный ресурс] – Режим доступа. – URL: https://sysblok.ru/glossary/chto-takoe-random-forest/ (дата обращения: 01.02.2025).
  9. Машинное обучение для начинающих: алгоритм случайного леса (Random Forest). [электронный ресурс] – Режим доступа. – URL: https://proglib.io/p/mashinnoe-obuchenie-dlya-nachinayushchih-algoritm-sluchaynogo-lesa-random-forest-2021-08-12 (дата обращения: 01.02.2025).
  10. Модели для классификации: Случайный лес (Random Forest). [электронный ресурс] – Режим доступа. – URL: https://python-school.ru/blog/osnovy-ml/randomforestclassifier/ (дата обращения: 19.01.2025).

Оставить комментарий