Статья опубликована в рамках: Научного журнала «Студенческий» № 39(209)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6, скачать журнал часть 7, скачать журнал часть 8, скачать журнал часть 9, скачать журнал часть 10, скачать журнал часть 11

Библиографическое описание:

Зорина Ю.О. МАШИННОЕ ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ // Студенческий: электрон. научн. журн. 2022. № 39(209). URL: https://sibac.info/journal/student/209/270981 (дата обращения: 26.07.2026).

МАШИННОЕ ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ

Зорина Юлия Олеговна

студент, кафедра Электротехника и электроника, Донской Государственный Технический Университет,

РФ, г. Ростов-на-Дону

MACHINE LEARNING WITHOUT A TEACHER

Yuliya Zorina

student, Don State Technical University,

Russia, Rostov-on-Don

АННОТАЦИЯ

В данной статье представлено описание принципа работы машинного обучения без учителя, рассмотрены задачи, для которых используется подобный вид обучения.

ABSTRACT

This article describes the principle of machine learning without a teacher, discusses the tasks for which this type of training is used.

Ключевые слова: машинное обучение, алгоритм, анализ данных.

Keywords: machine learning, algorithm, data analysis.

Спустя некоторое время после появления обучения с учителем, появилось обучение без учителя. Отличительная особенность в том, что данные не размечены. Наиболее часто такое обучение применяется для анализа данных, но не в качестве основного алгоритма, так как в последнем случае алгоритм оказывается крайне неэффективным. В настоящее время обучение без учителя на практике используется реже, чем обучение с учителем.

Задачи, для которых применяется классическое машинное обучение без учителя делятся на три типа: задачи на кластеризацию; задачи на обобщение; задачи на ассоциации.

Кластеризация – разделяет объекты по признаку, выделяемому машиной. По сути, это классификация, но без заранее известных классов.

Объекты разбиваются на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Исходная информация представляется в виде матрицы расстояний. Количество кластеров ограничивается вручную или определяется машиной.

Одним из простейших и популярных методов кластеризации является метод K-средних, который заключается в том, что сначала выбирается k - необходимое количество классов, затем случайным образом высыпаются на пространство имеющихся данных k точек (центроиды). Для каждой точки считается к какому центроиду она ближе, а затем каждый центроид перемещается в центр отнесенной к нему выборки, повторяется эта операция, пока центроиды не перестанут двигаться. Обнаруженные k кластеров стабильны. Этот алгоритм часто используется при сжатии фотографий.

Однако на практике, не всегда можно изначально знать число кластеров, а также факт их вложенности друг в друга. Для подобных задач используются более сложные алгоритмы, такие как DBSCAN – он сам находит скопления точек и строит вокруг кластеры.

Как и классификация, кластеризация тоже может использоваться как детектор аномалий, однако работает такой подход в разы хуже.

Обобщение или уменьшение размерности основано на сборе конкретных признаков в абстракции более высокого уровня. Полезным является свойство перехода на более высокий уровень абстракции, жертвуя ненужными для машины подробностями.

Основными для решения задач обобщения являются следующие методы:

1. Метод главных компонент (PCA) – один из самых простых и часто используемых методов для снижения размерности данных и проекции их на ортогональное подпространство признаков [4];

2. Сингулярное разложение (SVD) – метод, часто используемый для объединения слов и документов в один признак без потери скрытых (латентных) связей;

3. Латентно-семантический анализ (LSA) – метод, часто используемый для определения тематик текстов, основная идея которого была в том, что частота появления слова в тексте зависит от его тематики;

Уменьшение размерности часто применяется для построения рекомендательных систем, определение тематики документов, анализа фейковых изображений и видео и риск-менеджмента. Стоит отметить, что часто складывается ситуация, когда абстракции, полученные машиной, трудно понимаемы для человека.

Ассоциация или поиск правил основывается на поиске закономерностей в потоке заказов. Методы анализа покупательских корзин, прогноза распродаж и акций, шаблонов поведения пользователя на веб-ресурсах, стратегий маркетинга и других закономерностей.

Список литературы:

Открытый курс машинного обучения. Тема 7. Обучение без учителя: PCA и кластеризация [Электронный ресурс]. – Режим доступа: https://habr.com/ru/company/ods/blog/325654/ (дата обращения: 10.10.2022)
Wikipedia: Обучение без учителя [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/Обучение_без_учителя (дата обращения: 10.10.2022)