Статья опубликована в рамках: Научного журнала «Студенческий» № 27(197)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4
МАШИННОЕ ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ
MACHINE LEARNING WITHOUT A TEACHER
Alhan Bajmuradov
student, Don State Technical University,
Russia, Rostov-on-Don
АННОТАЦИЯ
В данной статье представлено описание принципа работы машинного обучения без учителя, рассмотрены задачи, для которых используется подобный вид обучения.
ABSTRACT
This article describes the principle of machine learning without a teacher, discusses the tasks for which this type of training is used.
Ключевые слова: машинное обучение, алгоритм, анализ данных.
Keywords: machine learning, algorithm, data analysis.
Спустя некоторое время после появления обучения с учителем, появилось обучение без учителя. Отличительная особенность в том, что данные не размечены. Наиболее часто такое обучение применяется для анализа данных, но не в качестве основного алгоритма, так как в последнем случае алгоритм оказывается крайне неэффективным. В настоящее время обучение без учителя на практике используется реже, чем обучение с учителем.
Задачи, для которых применяется классическое машинное обучение без учителя делятся на три типа: задачи на кластеризацию; задачи на обобщение; задачи на ассоциации.
Кластеризация – разделяет объекты по признаку, выделяемому машиной. По сути, это классификация, но без заранее известных классов.
Объекты разбиваются на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Исходная информация представляется в виде матрицы расстояний. Количество кластеров ограничивается вручную или определяется машиной.
Одним из простейших и популярных методов кластеризации является метод K-средних, который заключается в том, что сначала выбирается k - необходимое количество классов, затем случайным образом высыпаются на пространство имеющихся данных k точек (центроиды). Для каждой точки считается к какому центроиду она ближе, а затем каждый центроид перемещается в центр отнесенной к нему выборки, повторяется эта операция, пока центроиды не перестанут двигаться. Обнаруженные k кластеров стабильны. Этот алгоритм часто используется при сжатии фотографий.
Однако на практике, не всегда можно изначально знать число кластеров, а также факт их вложенности друг в друга. Для подобных задач используются более сложные алгоритмы, такие как DBSCAN – он сам находит скопления точек и строит вокруг кластеры.
Как и классификация, кластеризация тоже может использоваться как детектор аномалий, однако работает такой подход в разы хуже.
Обобщение или уменьшение размерности основано на сборе конкретных признаков в абстракции более высокого уровня. Полезным является свойство перехода на более высокий уровень абстракции, жертвуя ненужными для машины подробностями.
Основными для решения задач обобщения являются следующие методы:
1. Метод главных компонент (PCA) – один из самых простых и часто используемых методов для снижения размерности данных и проекции их на ортогональное подпространство признаков [4];
2. Сингулярное разложение (SVD) – метод, часто используемый для объединения слов и документов в один признак без потери скрытых (латентных) связей;
3. Латентно-семантический анализ (LSA) – метод, часто используемый для определения тематик текстов, основная идея которого была в том, что частота появления слова в тексте зависит от его тематики;
Уменьшение размерности часто применяется для построения рекомендательных систем, определение тематики документов, анализа фейковых изображений и видео и риск-менеджмента. Стоит отметить, что часто складывается ситуация, когда абстракции, полученные машиной, трудно понимаемы для человека.
Ассоциация или поиск правил основывается на поиске закономерностей в потоке заказов. Методы анализа покупательских корзин, прогноза распродаж и акций, шаблонов поведения пользователя на веб-ресурсах, стратегий маркетинга и других закономерностей.
Список литературы:
- Открытый курс машинного обучения. Тема 7. Обучение без учителя: PCA и кластеризация [Электронный ресурс]. – Режим доступа: https://habr.com/ru/company/ods/blog/325654/ (дата обращения: 23.06.2022)
- Wikipedia: Обучение без учителя [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/Обучение_без_учителя (дата обращения: 23.06.2022)
Оставить комментарий