Статья опубликована в рамках: LVIII Международной научно-практической конференции «Инновации в науке» (Россия, г. Новосибирск, 29 июня 2016 г.)

Наука: Технические науки

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Мелихова О.А., Григораш А.С., Джамбинов С.В. [и др.] ПРОБЛЕМЫ ОБУЧЕНИЯ И ПОИСКА РЕШЕНИЯ В АГЕНТНЫХ СИСТЕМАХ // Инновации в науке: сб. ст. по матер. LVIII междунар. науч.-практ. конф. № 6(55). – Новосибирск: СибАК, 2016. – С. 91-98.

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов

ПРОБЛЕМЫ ОБУЧЕНИЯ И ПОИСКА РЕШЕНИЯ В АГЕНТНЫХ СИСТЕМАХ

Мелихова Оксана Аскольдовна

студент Южного федерального университета,

РФ, г. Таганрог

Григораш Андрей Сергеевич

студент Южного федерального университета,

РФ, г. Таганрог

Джамбинов Сергей Владимирович

студент Южного федерального университета,

РФ, г. Таганрог

Чумичев Владимир Сергеевич

студент Южного федерального университета,

РФ, г. Таганрог

Гайдуков Анатолий Борисович

студент Южного федерального университета,

РФ, г. Таганрог

LEARNING PROBLEMS AND SOLUTIONS IN SEARCH AGENT SYSTEMS

Oksana Melikhova

candidate of Science, assistant professor,

assistant professor of the Southern Federal University,

Russia, Taganrog

Andrey Grigorash

postgraduate of the Southern Federal University,

Russia, Taganrog

Sergey Dzhambinov

student of the Southern Federal University,

Russia, Taganrog

Vladimir Chumichev

student of the Southern Federal University,

Russia, Taganrog

Anatoly Gaidukov

student of the Southern Federal University,

Russia, Taganrog

АННОТАЦИЯ

Приводятся обобщенное определение понятие агента в системах искусственного интеллекта, основные виды агентов и типы их машинного обучения. Рассматривается возможность поиска наилучшего решения в пространстве гипотез при обучении агента по методу Джона Миллома.

ABSTRACT

Summarizes the definition of the concept of the agent in artificial intelligence systems, the main types of agents and types of machine learning . The possibility of finding the best solutions in the space of hypotheses in the training agent John Milloma method.

Ключевые слова: агент, машинное обучение, метод Миллома, пространство гипотез, самообучающейся агент, индуктивное обучение.

Keywords: agent, machine learning, Milloma method, hypotheses space, a learning agent, induction training.

Понятие агента в искусственном интеллекте довольно многогранно [1; 3]. Рассмотрим обобщённое определение этого понятия. Под агентом в системах искусственного интеллекта понимается любая сущность, которая может воздействовать на окружающую среду своими исполнительными механизмами и воспринимать её своими датчиками [2; 9]. Существует несколько видов агентов. Самый простой из них, так называемый, простой рефлексивный агент. Он выполняет простые функции, на которые способен агент, то есть сбор информации, единичное воздействие на окружающую среду, без ведения статистики и протокола своих действий. Также есть агент, действующий на основе цели, у которого все действия направлены исключительно на выполнение поставленной цели. Есть также агент, основанный на модели, все действия которого основываются на заданной модели окружающего мира. Существует также самообучающийся агент, который объединяет в себе функции агента на основе модели и агента на основе цели [7; 8; 9].

Поскольку у любого агента есть производительные элементы, определяющие какие действия должны быть выполнены, то и обучающие элементы должны иметь возможность модифицировать производительные элементы таким образом, чтобы они выдавали наилучшее решение [4; 5]. На проект обучающего элемента влияют три аспекта:

Компоненты производительного элемента, подлежащие обучению.
Обратные связи, которые могут применяться для обучения этих компонентов.
Способы представления, используемые для компонентов.

Выделим основные компоненты любого агента:

Средства прямого отображения условий (распространяющихся на текущее состояние) в действии.
Средства логического вывода релевантных свойств мира из последовательности результатов восприятия.
Информация о том, как развивается мир и какие результаты возможных действий могут быть получены агентом.
Информация о полезности агента.
Информация о ценности агента.
Цели, описывающие классы состояний системы, достижение которых максимизирует полезность агента.

Обучение агентов может происходить с помощью соответствующей обратной связи [6]. Ярким примером такой связи является правило «условие-действие», по которому при выполнении определенного условия агент отвечает вполне определенным действием. Тип обратной связи, доступной для обучения, обычно является наиболее важным фактором, определяющим характер задачи обучения с которой сталкивается агент [1; 3; 6]. В области машинного обучения, как правило, различают три вида обучения: контролируемое обучение, неконтролируемое обучение и обучение с подкреплением.

В задаче контролируемого обучения предусматривается изучение некоторой функции на основе её входных и выходные данных. Например, у нас есть три варианта расчета одного и того же значения, предположим, тормозного пути. Пусть вариантом 1 будет правило «условие-действие», вариант 2 – агент изучает функцию, преобразующую входные данные в булев-вход (значение истина-ложь), вариант 3 – агент сам определяет значение функции. То есть, если первый и второй вариант был реализован скорее с помощью учителя, поскольку либо диктуются условия, либо у агента уже есть преобразующая функция, то при третьем варианте выходное значение должно быть получено непосредственно из результатов восприятия агента. В полностью наблюдаемых вариантах среды всегда соблюдается такое условие, что агент может наблюдать за результатами своих действий и поэтому может использовать методы контролируемого обучения, чтобы научиться предсказывать результаты. В частично наблюдаемых вариантах среды задача обучения становится сложнее и трудно допустимой из-за восприятия [2; 4; 7].

В задаче неконтролируемого обучения происходит выявление определенных закономерностей во входных данных в тех условиях, когда не задаются конкретные выходные значения. Ярким примером является представление агента-водителя о днях с «хорошим дорожным движением» и с «плохим дорожным движением». Обучаемый агент, который находится без контроля, не может узнать, что делать в процессе обучения, поскольку ему не поступает информация и он не знает, что полезно, а что нет [5; 8; 9].

Задача обучения с подкреплением является наиболее обобщенной. Агент, проходящий обучение с подкреплением, не получает указаний о том, что делать, а должен обучаться на основе подкрепления. То есть, внешние условия влияют на него больше всего. Например, для агента-водителя столкновение с другим агентом не желательно, поскольку это не допустимо. Из этого следует, что агент будет вести себя так, чтобы избежать столкновения. Задача обучения агента с подкреплением включает подзадачу обучения тому как функционирует окружающая среда [8; 11].

Рассмотрим индуктивное обучение. Любой алгоритм детерминированного контролируемого обучения получает в качестве исходной информации правильные значения неизвестной функции, соответствующие определённым входным данным, и агент должен предпринять попытку восстановления функции или сформировать на исходных данных свою функцию, близкую к ней. Формальное представление можно определить так, что у нас есть (x, f(x)), где x – входное значение, а f(x) – выходное значение функции по x. Основная задача чистого индуктивного логического вывода звучит следующим образом: «На основании совокупности примеров входных и выходных данных функции f получить функцию h, которая аппроксимирует f». Функция h называется гипотезой. Качество гипотезы определяется тем насколько она может обеспечить приемлемое обобщение, то есть она должна предсказывать появление ещё не полученных примеров. Собственно, в этом состоит фундаментальная проблема индукции [3; 7; 9].

Рассмотрим обучение параметрам с помощью полных данных. Суть этого способа обучения сводится к поиску числовых параметров для вероятностной модели, имеющей фиксированную структуру. Данные задаются полными, то есть для каждой точки в структуре, которая имеет обычно сетевую архитектуру, есть значение переменной, используемой для вероятностной модели в процессе обучения. Ярким примером может быть выпадение «орла» или «решки», то есть, если у нас нет данных о том какие были прошлые броски, то все сводится к континууму гипотез. Кроме того, в этом случае параметром, который будет обозначаться как θ, является вероятность выпадения «орла», а h_θ (вероятность выпадения «решки» выражается как (1 – θ)) [4; 6; 10]. Если предположить, что все варианты равновероятны и все возможные значения долевого состава априорно являются равновероятными, то становится обоснованным подход на основе гипотезы с максимальным правдоподобием. Если мы промоделируем эту ситуацию с помощью байесовской сети, то потребуется только одна случайная переменная. Гипотеза с максимальным правдоподобием задается значением θ, которое максимизирует это выражение. Такое же значение может быть получено путем максимизации значения логарифмического правдоподобия. Из этого утверждения получается, что гипотеза с максимальным правдоподобием h_ML утверждает, что фактическая вероятность выпадения «орла» равна наблюдаемой доле выпадения «орла» до сих пор. На таком обосновании строится пространство гипотез, из которого агент выбирает подходящую и обучается ей [9].

Рассмотрим поиск текущей наилучшей гипотезы. В основе такого метода лежит подход, предусматривающий сопровождение единственной гипотезы и ее корректировку по мере поступления новых параметров в целях поддержки совместимости. Основной алгоритм этого метода был впервые описан Джоном Стюартом Милломом [7]. Его алгоритм строился на следующем предположении: есть гипотеза H_r, которая нас полностью устраивает, потому что она соответствует всем требованиям. Но это происходит до тех пор, пока не поступает отрицательный пример x₂₃. Естественно, наша гипотеза не может подстроиться под него. Все значения, которые попали в область действия гипотезы отмечаются положительным знаком «+», тогда как все значение, которые не попадут в эту область обозначаются знаком «-» (рисунок 1, a). Пример, показанный на (рисунке 1, б) является ложноотрицательным примером, то есть в гипотезе утверждается, он должен быть отрицательным, но фактически этот пример положителен. Расширение гипотезы (увеличение) с целью включения называется операцией обобщения, пример показан на (рисунке 1, в). На (рисунке 1, г) показан ложноположительный пример, то есть в гипотезе утверждается, что этот пример должен быть положительным, но он является отрицательным, то есть такая операция будет портить нам гипотезу. В таком случае область гипотезы должна быть уменьшена в целях исключения данного примера. Уменьшение гипотезы называется её уточнением, на (рисунке 1, д) показывается такое уточнение. Из этого можно выделить отношения между гипотезами «более общий чем» и «более конкретный чем», которые позволят создать пространство гипотез с такой логической структурой, которая позволяет задавать эффективный поиск.

Рисунок 1. Совместная гипотеза (а), ложноотрицательный пример (б), гипотеза обобщена (в), ложноположительный пример (г), гипотеза уточнена (д)

Алгоритм Миллома выражает эти операции обобщения и уточнения [3]. То есть, согласно алгоритму подается гипотеза H, которая совместима с первым примеров в множестве X, а дальше после прохождения первого этапа, в котором х₁ совместим с гипотезой, наш агент постепенно расширяет и уточняет изначальную гипотезу, пока не пройдет по всему множеству Х. Необходимо каждое следующее изменение области включения гипотезы сравнивать с предыдущими, поскольку произвольное расширение и уточнение гипотезы может привести к тому, что примеры, которые раньше были положительными могут уже не подходить под область гипотезы и наоборот. Конечно, встает вопрос о приемлемости изначальной гипотезы, поэтому обычно выполняются следующие операции в начале алгоритма:

Первый пример x₁ является положительным, тогда значение является истинным, то есть гипотеза подходит под заданный пример.
Второй пример x₂ отрицателен, но гипотеза у нас предсказывает, что он должен быть положительным, поэтому данный пример становится ложноположительным. Из-за этого примера стоит уточнить гипотезу, что заставляет ввести дополнительное значение, которое исключает x₂.
Третий пример x₃ является положительным, но поскольку предыдущий пример являлся ложноположительным, то гипотеза предсказывает, что он является отрицательным, таким образом x₃ является ложноотрицательным. Из-за этого следует обобщить гипотезу.
Четвертый пример x₄ положителен, а гипотеза считает, что будет отрицательным, поэтому пример будет ложноотрицательный. Это означает, что нужно опять обобщить гипотезу, чтобы значение x₄ являлось положительным, но при этом нужно не забывать, чтобы общение не привело к тому, чтобы x₂ стал положительным.

Алгоритм Миллома имеет ряд недостатков и трудностей на большом количестве экземпляров примеров и большом пространстве гипотез [2; 3; 5]:

В алгоритме повторяется проверка предыдущих значений, при этом возможна модификация при каждой проверке, что требует больших вычислительных мощностей.
Процесс поиска может быть связан с очень интенсивным перебором с возвратами.

Список литературы:

Корнеев В.В., Гареев А.Ф., Васютин С.В., Райх В.В. Базы данных. Интеллектуальная обработка информации. – М.: «Нолидж», 2000. – 352 с.
Мелихова О.А. Методы построения интеллектуальных систем на основе нечеткой логики: Научное издание. – Таганрог: Изд-во ТРТУ, 2007. – 92 с.
Мелихова О.А. Нейронные сети, как составная часть систем искусственного интеллекта // Информатика вычислительная техника и инженерное образование. 6.09.2015. URL: http://digital-mag.tti.sfedu.ru (Дата обращения: 1.05.2016).
Мелихова О.А., Гайдуков А.Б., Джамбинов С.В., Чумичев В.С. Методы поддержки принятия решений на основе нейронных сетей // Актуальные проблемы гуманитарных и естественных наук. – Москва, № 09 (80). Ч. 1. 2015. – С. 52–59.
Мелихова О.А., Григораш А.С., Джамбинов С.В., Чумичев В.С., Гайдуков А.Б. Некоторые аспекты теории нейронных систем // Молодой ученый. – Казань. № 16 (96), 2015. – С. 196–199.
Мелихова О.А., Григораш А.С., Джмбинов С.В., Чумичев В.С, Гайдуков А.Б. Методы обучения в системах искусственного интеллекта // Технические науки – от теории к практике / Сб.ст. по материалам LII междунар. науч.-практ. конф № 11 (47). Новосибирск: Изд. АНС «Сибак», 2015 – С. 19–29.
Мелихова О.А., Вепринцева О.В., Чумичев В.С., Джамбинов С.В., Гайдуков А.Б. Понятие агента в системах искусственного интеллекта // Технические науки – от теории к практике / Сб.ст. по материалам LIII междунар. науч.-практ. конф № 12 (48). Новосибирск: Изд. АНС «Сибак», 2015 – С. 44–51.
Мелихова О.А., Вепринцева О.В., Чумичев В.С., Джамбинов С.В., Гайдуков А.Б. Модели агентов в интеллектуальных системах // Технические науки – от теории к практике / Сб.ст. по материалам LIV междунар. науч.-практ. конф № 1 (49). Новосибирск: Изд. АНС «Сибак», 2016 – С. 49–56.
Мелихова О.А., Вепринцева О.В., Чумичев В.С., Джамбинов С.В., Гайдуков А.Б. Режимы обучения в искусственных нейронных сетях // Инновации в науке / Сб.ст. по материалам LIII междунар. науч.-практ. конф № 1 (50). Часть 1. Новосибирск: Изд. АНС «Сибак», 2016. – С. 16–23.
Мелихова О.А., Григораш А.С., Джамбинов С.В., Чумичев В.С., Гайдуков А.Б. Сравнение алгоритмов поиска оптимальных решений в агентных системах // Инновации в науке / Сб.ст. по материалам LV междунар. науч.-практ. конф № 3 (52). Часть II. Новосибирск: Изд. АНС «Сибак», 2016. – С. 46–53.
Назаров А.В., Лоскутов А.И. Нейросетевые алгоритмы прогнозирования и оптимизации систем. – СПб.: Наука и техника, 2003. – 384 с.

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов

Оставить комментарий

Оставаясь на сайте, вы даете согласие на обработку файлов cookie, пользовательских данных, собираемых, в том числе с использованием сервиса Яндекс.Метрика, в целях обеспечения работы сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, измените настройки браузера или покиньте сайт.