Статья опубликована в рамках: Научного журнала «Студенческий» № 23(193)

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5

Библиографическое описание:

Зорина Ю.О. ОБЗОР ТЕХНОЛОГИИ МАШИННОГО ОБУЧЕНИЯ ПРИ ОПТИМИЗАЦИИ МОДЕЛИ // Студенческий: электрон. научн. журн. 2022. № 23(193). URL: https://sibac.info/journal/student/193/260182 (дата обращения: 17.08.2025).

ОБЗОР ТЕХНОЛОГИИ МАШИННОГО ОБУЧЕНИЯ ПРИ ОПТИМИЗАЦИИ МОДЕЛИ

Зорина Юлия Олеговна

студент, кафедра электротехника и электроника, Донской государственный технический университет,

РФ, г. Ростов-на-Дону

OVERVIEW OF MACHINE LEARNING TECHNOLOGY IN MODEL OPTIMIZATION

Yuliya Zorina

student, Department of electrical and electronics engineering, Don State Technical University,

Russia, Rostov-on-Don

АННОТАЦИЯ

Есть несколько областей, где машинное обучение может улучшить мир систем управления. Здесь мы попытаемся определить и описать пару и посмотреть, насколько вероятно, что они прорвутся через промышленную автоматизацию.

ABSTRACT

There are several areas where machine learning can improve the world of control systems. Here we will try to identify and describe a couple and see how likely they are to break through industrial automation.

Ключевые слова: машинное обучение; автоматизация; оптимизация.

Keywords: machine learning; automation; optimization.

Оптимизация – область, где внедрение методов ML может серьезно революционизировать эту область. Все промышленные машины и процессы управляются контроллерами: от простейшего ПИД-контроллера до добавления моделей обратной связи, методов MPC и других более экзотических нелинейных моделей. Все эти контроллеры должны быть параметризованный вручную или автоматически с помощью методов автоматической настройки идентификации. И вот возникает проблема: большинство контроллеров, развернутых в полевых условиях, настроены не эффективно по нескольким причинам: ручная настройка сложна и требует длительного опыта и глубоких знаний процесса; функции автоматической настройки не всегда доступны, а когда они доступны, они не всегда оптимальны. После этого часто требуется тонкая настройка; как и в случае прогнозирующего обслуживания, оптимальная параметризация может быть динамической целью для адаптивного контроллера.

Количество параметров в контроллере может сильно варьироваться: регулятор температуры пластика в машине для литья под давлением обычно полагается только на три параметра; динамическая модель стандартного 6-осевого манипулятора использует более ста базовых параметров (хотя и не полностью несвязанных) [1, c. 1109].

Цель - найти наилучший (оптимальный) набор параметров, который максимизирует производительность контроллера, измеряемую каким-либо индексом (например, время простоя для температуры, или ошибка положения для электропривода, или выходная мощность от ветряной турбины).

Машинное обучение решает оптимизацию стратегии управления с использованием методов обучения с подкреплением. Номенклатура немного отличается (модель становится политикой, вход - наблюдением, выход - действием, обратная связь - вознаграждением), но концепция абсолютно одинакова.

В частности, мы концентрируемся на алгоритмах поиска политик, потому что у нас уже есть начальная политика для работы: наш оригинальный неоптимальный контроллер, обычно предварительно настроенный на прототипе машины или в среде моделирования и ожидающий оптимизации в реальном поле. Этот подход позволяет легко вводить предыдущие знания в политику (используя контроллер в режиме моделирования для генерации большого количества данных).

Хотя обучение с подкреплением не гарантирует конвергенции политики к оптимальной параметризации нашего контроллера, оно должно обеспечить улучшения в большинстве случаев. Вопрос в том, какие расходы. Ответ зависит от сложности проблемы и доступности данных. Контроллер с тремя параметрами, для которого доступна среда моделирования, может быть оптимизирован довольно быстро. С другой стороны, большая модель, которую можно настроить только на реальной машине, будет тратить много времени и материала. Наконец, всегда должны быть строгие ограничения безопасности, потому что случайное возмущение параметров политики может привести к непредсказуемым действиям [2, c. 31].

Распространенный альтернативный способ сохранить доступные знания от существующего контроллера - добавить новую политику в качестве параллельной компенсации, которую нужно изучить с нуля. Это сэкономит контролируемое время обучения и позволит избежать неточностей процесса аппроксимации. Типичным случаем, когда этот подход предпочтителен, является компенсация механических и калибровочных проблем в промышленных роботах [3, c. 24].

Вместо того, чтобы обучать сеть на существующей кинематической модели, а затем улучшать ее с помощью обучения с подкреплением, мы можем просто добавить пустую политику параллельно обратной кинематике по умолчанию и использовать RL для работы исключительно с этой частью контроллера. Другими словами, вместо оптимизации существующей модели мы добавляем к ней внешнюю компенсацию.

Список литературы:

Марзбан, C. ROC и площадь под ней в качестве показателей эффективности. 2004. – С.1106-1114.
Коциантис, С.; Канеллопулос, Д.; Пинтелас, П. Обработка несбалансированных наборов данных: обзор. 2006. – С. 25-36.
Чандрашекар Г.; Сахин Ф. Обзор методов отбора признаков. 2014. – С. 16-28.

ОБЗОР ТЕХНОЛОГИИ МАШИННОГО ОБУЧЕНИЯ ПРИ ОПТИМИЗАЦИИ МОДЕЛИ

Оставить комментарий