Статья опубликована в рамках: Научного журнала «Студенческий» № 27(197)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4

Библиографическое описание:

Баймурадов А.А. МАШИННОЕ ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ // Студенческий: электрон. научн. журн. 2022. № 27(197). URL: https://sibac.info/journal/student/197/262224 (дата обращения: 24.07.2026).

МАШИННОЕ ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ

Баймурадов Алхан Арсенович

студент, кафедра Информационные технологии, Донской Государственный Технический Университет,

РФ, г. Ростов-на-Дону

MACHINE LEARNING WITHOUT A TEACHER

Alhan Bajmuradov

student, Don State Technical University,

Russia, Rostov-on-Don

АННОТАЦИЯ

В данной статье представлено описание принципа работы машинного обучения без учителя, рассмотрены задачи, для которых используется подобный вид обучения.

ABSTRACT

This article describes the principle of machine learning without a teacher, discusses the tasks for which this type of training is used.

Ключевые слова: машинное обучение, алгоритм, анализ данных.

Keywords: machine learning, algorithm, data analysis.

Спустя некоторое время после появления обучения с учителем, появилось обучение без учителя. Отличительная особенность в том, что данные не размечены. Наиболее часто такое обучение применяется для анализа данных, но не в качестве основного алгоритма, так как в последнем случае алгоритм оказывается крайне неэффективным. В настоящее время обучение без учителя на практике используется реже, чем обучение с учителем.

Задачи, для которых применяется классическое машинное обучение без учителя делятся на три типа: задачи на кластеризацию; задачи на обобщение; задачи на ассоциации.

Кластеризация – разделяет объекты по признаку, выделяемому машиной. По сути, это классификация, но без заранее известных классов.

Объекты разбиваются на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Исходная информация представляется в виде матрицы расстояний. Количество кластеров ограничивается вручную или определяется машиной.

Одним из простейших и популярных методов кластеризации является метод K-средних, который заключается в том, что сначала выбирается k - необходимое количество классов, затем случайным образом высыпаются на пространство имеющихся данных k точек (центроиды). Для каждой точки считается к какому центроиду она ближе, а затем каждый центроид перемещается в центр отнесенной к нему выборки, повторяется эта операция, пока центроиды не перестанут двигаться. Обнаруженные k кластеров стабильны. Этот алгоритм часто используется при сжатии фотографий.

Однако на практике, не всегда можно изначально знать число кластеров, а также факт их вложенности друг в друга. Для подобных задач используются более сложные алгоритмы, такие как DBSCAN – он сам находит скопления точек и строит вокруг кластеры.

Как и классификация, кластеризация тоже может использоваться как детектор аномалий, однако работает такой подход в разы хуже.

Обобщение или уменьшение размерности основано на сборе конкретных признаков в абстракции более высокого уровня. Полезным является свойство перехода на более высокий уровень абстракции, жертвуя ненужными для машины подробностями.

Основными для решения задач обобщения являются следующие методы:

1. Метод главных компонент (PCA) – один из самых простых и часто используемых методов для снижения размерности данных и проекции их на ортогональное подпространство признаков [4];

2. Сингулярное разложение (SVD) – метод, часто используемый для объединения слов и документов в один признак без потери скрытых (латентных) связей;

3. Латентно-семантический анализ (LSA) – метод, часто используемый для определения тематик текстов, основная идея которого была в том, что частота появления слова в тексте зависит от его тематики;

Уменьшение размерности часто применяется для построения рекомендательных систем, определение тематики документов, анализа фейковых изображений и видео и риск-менеджмента. Стоит отметить, что часто складывается ситуация, когда абстракции, полученные машиной, трудно понимаемы для человека.

Ассоциация или поиск правил основывается на поиске закономерностей в потоке заказов. Методы анализа покупательских корзин, прогноза распродаж и акций, шаблонов поведения пользователя на веб-ресурсах, стратегий маркетинга и других закономерностей.

Список литературы:

Открытый курс машинного обучения. Тема 7. Обучение без учителя: PCA и кластеризация [Электронный ресурс]. – Режим доступа: https://habr.com/ru/company/ods/blog/325654/ (дата обращения: 23.06.2022)
Wikipedia: Обучение без учителя [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/Обучение_без_учителя (дата обращения: 23.06.2022)