Статья опубликована в рамках: Научного журнала «Студенческий» № 32(76)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2
МАШИННОЕ ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ
Спустя некоторое время после появления обучения с учителем, появилось обучение без учителя. Отличительная особенность в том, что данные не размечены. Наиболее часто такое обучение применяется для анализа данных, но не в качестве основного алгоритма, так как в последнем случае алгоритм оказывается крайне неэффективным. В настоящее время обучение без учителя на практике используется реже, чем обучение с учителем [1].
Задачи, для которых применяется классическое машинное обучение без учителя делятся на три типа:
- Задачи на кластеризацию;
- Задачи на обобщение;
- Задачи на ассоциации.
Кластеризация – разделяет объекты по признаку, выделяемому машиной. По сути, это классификация, но без заранее известных классов.
Объекты разбиваются на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Исходная информация представляется в виде матрицы расстояний [3]. Количество кластеров ограничивается вручную или определяется машиной.
Одним из простейших и популярных методов кластеризации является метод K-средних, который заключается в том, что сначала выбирается k - необходимое количество классов, затем случайным образом высыпаются на пространство имеющихся данных k точек (центроиды). Для каждой точки считается к какому центроиду она ближе, а затем каждый центроид перемещается в центр отнесенной к нему выборки, повторяется эта операция, пока центроиды не перестанут двигаться. Обнаруженные k кластеров стабильны. Этот алгоритм часто используется при сжатии фотографий.
Однако на практике, не всегда можно изначально знать число кластеров, а также факт их вложенности друг в друга. Для подобных задач используются более сложные алгоритмы, такие как DBSCAN – он сам находит скопления точек и строит вокруг кластеры.
Как и классификация, кластеризация тоже может использоваться как детектор аномалий, однако работает такой подход в разы хуже.
Обобщение или уменьшение размерности основано на сборе конкретных признаков в абстракции более высокого уровня. Полезным является свойство перехода на более высокий уровень абстракции, жертвуя ненужными для машины подробностями.
Основными для решения задач обобщения являются следующие методы:
- Метод главных компонент (PCA) – один из самых простых и часто используемых методов для снижения размерности данных и проекции их на ортогональное подпространство признаков [4];
- Сингулярное разложение (SVD) – метод, часто используемый для объединения слов и документов в один признак без потери скрытых (латентных) связей;
- Латентно-семантический анализ (LSA) – метод, часто используемый для определения тематик текстов, основная идея которого была в том, что частота появления слова в тексте зависит от его тематики;
Уменьшение размерности часто применяется для построения рекомендательных систем, определение тематики документов, анализа фейковых изображений и видео и риск-менеджмента. Стоит отметить, что часто складывается ситуация, когда абстракции, полученные машиной, трудно понимаемы для человека.
Ассоциация или поиск правил основывается на поиске закономерностей в потоке заказов. Методы анализа покупательских корзин, прогноза распродаж и акций, шаблонов поведения пользователя на веб-ресурсах, стратегий маркетинга и других закономерностей.
К сожалению, на данный момент является одной из самых бедных категорий в плане методов обучения. Классическими методами является перебор пар с помощью деревьев или множеств. Недостатком алгоритмов поиска правил является то, что они могут найти закономерности, но не могут их репродуцировать и обобщать.
В качестве вывода можно отметить, что несмотря на меньшую точность классического машинного обучения без учителя, есть классы задач, которые не могут быть решены без его использования.
Список литературы:
- Маланьин Д.Д. МАШИННОЕ ОБУЧЕНИЕ С УЧИТЕЛЕМ // Студенческий: электрон. научн. журн. 2019. № 31(75) [Электронный ресурс]. – Режим доступа: https://sibac.info/journal/student/75/153985
- Открытый курс машинного обучения. Тема 7. Обучение без учителя: PCA и кластеризация [Электронный ресурс]. – Режим доступа: https://habr.com/ru/company/ods/blog/325654/ (дата обращения: 05.10.2019)
- Wikipedia: Обучение без учителя [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/Обучение_без_учителя (дата обращения: 05.10.2019)
- Wikipedia: Метод главных компонент [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/Метод_главных_компонент (дата обращения: 05.10.2019)
Оставить комментарий