Статья опубликована в рамках: LIX Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 17 декабря 2018 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
НОВЫЕ АЛГОРИТМЫ И ТЕХНОЛОГИИ В МАШИННОМ ОБУЧЕНИИ
Благодаря огромному диапазону использования, машинное обучение все больше применяется в задачах прогнозирования с обработкой больших объёмов данных.
В машинном обучении применяются различные алгоритмы, причём определённые алгоритмы считаются достаточно многофункциональными.
На эффективность алгоритмов влияет большое количество условий:
- объем входных данных;
- свойства данных;
- вид данных;
- доступное вычислительное время;
- срочность задачи;
- действие, которое необходимо выполнить с данными.
В связи с этим для выбора наиболее эффективного алгоритма машинного обучения требуется проработать достаточно большое их количество, контролируя результативность каждого в пробном наборе данных, и потом подбирать наилучший вариант.
Способы машинного обучения можно разбить на 3 ключевых типа:
- обучение с учителем - контролируемое (supervisedlearning);
- обучение без учителя, или самообучение - неконтролируемое (unsupervisedlearning);
- обучение с подкреплением (reinforcementlearning).
В соответствии с решаемой проблемой, одни способы машинного обучения имеют все шансы считаться наиболее оптимальными и наиболее результативными, нежели другие. Рассмотрим их подробнее:
- Обучение с учителем. Процесс принятия решений представлен в виде некоторого «чёрного ящика», который неизвестно как действует внутри, значим только лишь итог его деятельности. Следует определить образы и установить, принадлежит определённый объект к заданной классификации либо не принадлежит. В данном случае человек выступает в качестве специалиста, который создаёт набор образцов и верных решений с экспертной точки зрения. Применяя обнаруженную функцию, алгоритм стремится отыскать результат для образца, коего никак не существовало в обучающем множестве.
Такие пары множеств образцов и заключений ещё именуют парами «объект - ответ», или прецедентами. Процесс обучения с учителем кроме того зачастую именуют процессом обучения по прецедентам. В реальной жизни машинное обучение с учителем применяется к таким задачам, как предсказание температуры, прогнозирование выручки, предсказание цены квартиры по параметрам типа площади, расположения, наличия мебели.
- Обучение без учителя. В неконтролируемом типе у алгоритма в процессе обучения отсутствуют заранее установленные ответы. Отыскать семантические взаимосвязи среди отдельных данных, выявить шаблоны и закономерности - его задача.
Отсутствие разметки для данных - главное различие между обычными классификациями машинного обучения и методами обучения без учителя. Поэтому возникает ряд отличительных черт:
- возможность применения несопоставимо больших объёмов данных, так как для обучения нет необходимости их размечать вручную;
- неточность замера методов, по причине недоступности подобных прямых и инстинктивно понятных измерений (метрик).
К задачам с использованием машинного обучения без учителя относится задача кластеризации: на вход поступают объекты, которые необходимо разбить на группы таким образом, чтобы в одной группе находились похожие объекты. Данный метод может быть полезен, когда дана большая коллекция текстов и необходимо её как-то автоматически структурировать, разделить тексты по темам, писателем или жанрам. Кластеризация может применяться для разделения пользователей интернет-магазина на кластеры, например, чтобы разным группам предлагать разные товары, на основе их интересов.
- Обучение с подкреплением. Смесью первых двух типов обучения является обучение с подкреплением. Его применяют с целью решения наиболее трудных задач, но для этого необходимо взаимодействие с окружающей средой. Алгоритм реагирует и учится за счет данных предоставляемых вокруг объекта.
Сфера использования подобного способа широка: начиная с контролирования механизированных рук и розыска более результативной комбинации перемещений, вплоть до разработки систем навигации роботов, где поведенческий метод «исключить конфликты» учится экспериментальным путём, приобретая обратную взаимосвязь при конфликте с преградой.
Данные способы машинного обучения могут быть использованы при решении различных задач, но они являются лишь «оболочкой», внутри которой работают такие алгоритмы, как линейная регрессия, дерево решений, метод главных компонент и другие. Если методы обучения задают способ получения информации, то алгоритмы проводят все расчёты по имеющимся данным. Выполним их сравнительный анализ, чтобы узнать, для чего же конкретно они используются.
- Линейная регрессия (linearregression). Зачастую данный алгоритм представить в виде подгонки прямой линии, проходящей сквозь большое количество точек. Для ее реализации применяется метод наименьших квадратов. Линией, которая будет определена таким образом, станет такая система, где совокупность расстояний до всех точек будет наименьшей. Данный метод помогает решать проблемы, связанные с анализом эластичности спроса, прогнозированием объёма продаж, стоимости ценных бумаг и загруженности веб-сервиса.
- Метод опорных векторов (SVM - Support Vector Machine). Данный алгоритм применяется для решения задач, связанных с классификациями объектов. Каждый объект (набор его данных - вектор) в пространстве относится к одному из двух предопределённых классов. Метод опорных векторов создаёт суперплоскость для осуществления разделения объектов на 2 категории. Он выбирает суперплоскость таким образом, чтобы та характеризовалась максимальным удалением от ближайшего элемента каждой из категорий.
Метод опорных объектов решает множество задач, но из числа глобальных можно выделить вопросы, связанные с распознаванием параметров человека по фотографии и отображением рекламных баннеров на интернет ресурсах. Немаловажную роль данный метод сыграл при процессах относящихся к человеческой ДНК.
- Наивный байесовский классификатор (NaiveBayes). Если брать во внимание, что алгоритм основан на теореме Байеса, наивный байесовский классификатор можно использовать, только если признаки независимы. Предполагается, что наличие какого-либо признака в классе не связано с наличием какого-либо другого признака. Даже если признаки зависят друг от друга или от других признаков, они вносят вклад в вероятность определения объекта. В связи с таким допущением алгоритм называется «наивным».
Теорему Байеса можно применить в областях, связанных с объединением новостных статей по их тематике, выявлением нежелательных писем в электронной почте и программном обеспечении для распознавания лиц.
- Логистическая регрессия (logisticregression). Данный метод можно отнести к сильным статистическим способам расчёта вероятности возникновения определённого события с одной или несколькими независимыми переменными. Логистическая регрессия устанавливает уровень связи среди категориальной зависимой и одной либо некоторыми самостоятельными переменными путём использования логистической функции, являющейся аккумулятивным логистическим распределением. Применяют данный алгоритм при измерении показателей успешности маркетинговых кампаний; вычислении возможности возникновения землетрясения в конкретный день; оценке кредитоспособности лица; предсказании доходов с определённого продукта.
- Дерево решений (decisiontree). Способ принятия решений, использующий древовидный граф, т.е. модель принятия решений, а также вероятные результаты их деятельности, в том числе расходы на ресурсы, возможность наступления события и продуктивность полезность. Использующееся в качестве бизнес-решения, дерево классификации даёт минимальное количество вопросов «да/нет», опираясь на которые, можно сделать верный выбор. Рассмотрение дерева как метода дает возможность прийти к логичному выводу, в основе которого лежат систематичность и структурированность.
- Метод k-средних (k-means). Метод относится к технике кластерного анализа. Учитывает набор данных в виде векторов, создает кластеры точек на основе расстояний между ними. Основная идея алгоритма заключается в том, что вектора произвольно разбиваются на кластеры, после чего итеративно перемещаются центры кластеров, а затем вектора разбиваются на кластеры в соответствии с тем, какой из новых центров оказался ближе по выбранной метрике. Метод k-средних применяется в большом количестве сфер, из которых можно выделить медицину, распознавание изображений и речи, определение наиболее посещаемых мест.
- Метод главных компонент (PCA - Principal Component Analysis). Данный метод является статистическим, поскольку использует ортогональное преобразование для конвертации группы исследований за коррелированными переменными в группу значений линейно некоррелированных переменных, называемых главными компонентами. PCA содержат упрощение данных для облегчения обучения и визуализацию. Применяется во многих областях, таких как компьютерное зрение, распознавание объектов, сжатие данных. Если данные плохо упорядочены, то метод не подходит для применения.
Некоторые алгоритмы обучения делают определенные предположения о желаемых результатах и структуре данных. Если найти алгоритм, который соответствует потребностям, то с ним можно уменьшить время обучения и получить более точные результаты и прогнозы.
Таблица 1.
Сравнительный анализ алгоритмов машинного обучения
Название алгоритма |
Скорость обучения |
Точность прогноза |
Настройка параметров |
Эффективность |
Линейная регрессия |
Быстрая |
Хорошая |
Нет |
Показывает высокий результат, если убрать похожие переменные и избавиться от шума в данных. |
Метод опорных векторов |
Низкая |
Хорошая |
Минимум |
Особенно полезен при больших наборах данных. |
Наивный Байесовский классификатор |
Быстрая |
Хорошая |
Несколько. Параметры создаются и задаются программистом в зависимости от полученных данных |
Оптимален в широком классе задач. Учитывает только индивидуальное влияние входных переменных. |
Логистическая регрессия |
Быстрая |
Хорошая |
Нет |
Выполняет свою задачу лучше, если убрать лишние и похожие переменные. |
Дерево решений |
Низкая |
Высокая |
Несколько. Параметры создаются и задаются программистом в зависимости от полученных данных |
Даёт высокую результативность в вопросах, на которые нужен однозначный логический ответ. |
Метод k-средних |
Низкая |
Хорошая |
Минимум |
Существенно искажает результат при наличии шума в наборе данных. |
Метод главных компонент |
Медленная |
Высокая |
Минимум |
Понижение размерности при больших объёмах данных. |
Когда программист видит все разнообразие алгоритмов и способов машинного обучения, то ему в голову сразу же приходит вопрос: «Какой же следует выбрать мне?» Ответ зависит от множества факторов:
- Размер, качество и характер данных;
- Доступное вычислительное время;
- Срочность задачи;
- Какие операции выполняются с данными.
Порой даже профессиональный data scientist не сможет с точностью сказать, какие алгоритмы и способы будет работать лучше, какую пару выбрать под конкретную задачу. Только методом проб и ошибок, используя разные варианты, можно найти наиболее эффективное решение.
Список литературы:
- Mitchell T. Machine Learning. — McGraw-Hill Science/Engineering/Math, 1997. ISBN 0-07-042807-7.
- Машинное обучение. [электронный ресурс] — Режим доступа. — URL: https://ru.wikipedia.org/wiki/Машинное_обучение (дата обращения 11.12.2018)
- Машинное обучение – это легко. [электронный ресурс] — Режим доступа. — URL: https://habr.com/post/319288/
дипломов
Оставить комментарий