Статья опубликована в рамках: Научного журнала «Студенческий» № 20(232)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6, скачать журнал часть 7, скачать журнал часть 8, скачать журнал часть 9, скачать журнал часть 10, скачать журнал часть 11, скачать журнал часть 12, скачать журнал часть 13
МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ
MACHINE LEARNING METHODS
Ivan Melnikov
student, faculty of Information Technology and Management, St. Petersburg State Institute of Technology,
Russia, St. Petersburg
АННОТАЦИЯ
Машинное обучение - это новейшее достижение в области вычислительной техники, в котором используются самые современные методологии для повышения эффективности бизнеса. Поскольку алгоритмы машинного обучения являются относительно новыми, эти методы постоянно совершенствуются для улучшения взаимодействия компьютера с пользователем. Постоянные обновления и разработки не только ошеломляют, но и мешают экспертам быть в курсе новых достижений. В этой статье определены шесть основных методов, составляющие основу машинного обучения, которые помогают улучшить навыки и заложить прочную основу для дальнейшего прогресса.
ABSTRACT
Machine learning is the latest achievement in the field of computer technology, which uses the most modern methodologies to improve business efficiency. Since machine learning algorithms are relatively new, these methods are constantly being improved to improve computer-user interaction. Constant updates and developments are not only stunning, but also prevent experts from being aware of new achievements. This article identifies six main methods that form the basis of machine learning, which help to improve skills and lay a solid foundation for further progress.
Ключевые слова: машинное обучение, нейронные сети, глубокое обучение.
Keywords: machine learning, neural networks, deep learning.
Машинное обучение - это раздел искусственного интеллекта (ИИ) и информатики, который фокусируется на использовании данных и алгоритмов для имитации способа обучения людей, постепенно повышая его точность.
Машинное обучение является важным компонентом растущей области науки о данных. Благодаря использованию статистических методов алгоритмы обучаются составлять классификации или прогнозы и выявлять ключевые идеи в проектах интеллектуального анализа данных. Эти идеи впоследствии стимулируют принятие решений в приложениях и компаниях, в идеале влияя на ключевые показатели роста. Поскольку большие данные продолжают расширяться, рыночный спрос на специалистов по обработке данных будет возрастать. Они потребуются, чтобы помочь определить наиболее актуальные бизнес-вопросы и данные для ответа на них. Рассмотрим шесть основных методов машинного обучения.
1. Регрессия
Он основан на основных принципах физики, которые помогают предсказывать будущее на основе текущих данных. Это также поможет найти корреляцию между двумя переменными, чтобы определить причинно-следственную связь. Можно построить график на основе этих переменных и делать непрерывные прогнозы на основе предикторной переменной.
Однако существуют различные формы регрессии, от линейной регрессии до комплексной регрессии, вычисления и представления полиномиальных данных. Должно начинать с основ, то есть освоить линейную регрессию, а затем переходить к сложным формам.
Типичные примеры линейной регрессии следующие:
1) Прогноз погоды
2) Прогнозирование рыночных тенденций
3) Выявление потенциальных рисков
2. Кластеризация
Кластеризация - это неконтролируемый метод обучения, который используется для анализа данных во многих областях. Алгоритм кластеризации оказывается удобным, когда мы хотим получить детальное представление о наших данных. Реальным примером кластеризации могут служить жанровые кластеры Netflix, которые разделены для разных целевых клиентов, включая интересы, демографию, стиль жизни и т.д. Теперь вы можете подумать о том, насколько полезна кластеризация, когда компании хотят понять свою клиентскую базу и ориентироваться на новых потенциальных клиентов.
a) K означает кластеризацию
K означает, что алгоритм кластеризации пытается разделить заданные неизвестные данные на кластеры. Он случайным образом выбирает центроид кластеров ‘k’, вычисляет расстояние между точками данных и центроидом кластеров и затем, наконец, присваивает точку данных центроиду кластера, расстояние до которого минимально из всех центроидов кластера.
В k-средних группы определяются ближайшим центроидом для каждой группы. Этот центроид действует как ‘Мозг’ алгоритма, они получают наиболее близкие к ним точки данных, а затем добавляют их в кластеры.
б) Иерархическая кластеризация
Иерархическая кластеризация почти аналогична обычной кластеризации, если только вы не хотите построить иерархию кластеров. Это может пригодиться, когда вы хотите определить количество кластеров. Например, предположим, что вы создаете группы из разных товаров в продуктовом интернет-магазине. На главной странице вам нужно несколько общих элементов, и как только вы нажимаете на один из элементов, открываются конкретные категории, то есть более конкретные кластеры.
3. Группировка
Это неконтролируемый метод машинного обучения, при котором для прогнозирования используются аналогичные признаки, а не прошлые данные. Алгоритм использует визуальные подсказки для разработки решения. K-средние - самый популярный метод группировки входных данных, который позволяет фиксировать значение K и классифицировать данные на основе этого значения.
Возьмем, к примеру, энергоэффективное здание, о котором говорилось ранее. Чтобы сгруппировать аналогичное здание, теперь нужно зафиксировать значение K (которое равно 2) и ввести переменные, такие как подключаемое оборудование, холодильные установки, бытовой газ (печи) и коммерческий газ (отопительные установки).
Поскольку значение K равно 2, в зависимости от определенных переменных будут две группы: эффективные здания и неэффективные здания.
4. Уменьшение размерности
Это процесс уменьшения случайных величин при категоризации данных. Чем больше переменных, тем сложнее результаты, что затрудняет их консолидацию.
Выбор и извлечение характеристик лежат в основе уменьшения размерности в машинном обучении. Они позволяют исключить нерелевантные переменные.
Наиболее распространенным примером уменьшения размеров является процесс классификации сообщений электронной почты, используемый для сортировки нежелательных писем. Как правило, в нем содержится большое количество переменных, таких как заголовки, содержание, шаблон электронного письма и прочее. В этом случае программное обеспечение включает уменьшение размерности для снижения вероятности повторения и предоставления точных результатов.
5. Комплексный метод
Это метод объединения данных с использованием переменных прогнозирования из различных моделей. Таким образом, он объединяет различные подходы для формирования высокоточных и оптимизированных прогностических результатов. Этот метод используется для принятия решений с учетом различных факторов.
Например, при рассматрение возможности покупки недвижимости в городе, данный метод прогнозирует ответ на основе различных факторов, таких как тип собственности, стоимость, сбережения, долгосрочные инвестиционные цели и экономические условия. Этот метод используется для поиска наиболее точного ответа на проблему в различных сценариях. Таким образом, возможно каждый раз изменять значения переменных для оценки и прогноза результатов.
Алгоритм случайного леса - типичный пример ансамлевых методов, которые объединяют различные деревья решений на основе нескольких наборов данных. Ученые используют метод множеств для более точного прогнозирования: Kaggle, портал онлайн-конкурсов машинного обучения, интегрированный метод множеств для оценки участников.
6. Нейронные сети и глубокое обучение
Нейронная сеть основана на модели данных с разделением. Она включает в себя несколько уровней настройки, чтобы предоставить уникальный и точный результат. Однако модель по-прежнему основана на линейной регрессии, однако все же использует несколько скрытых уровней.
Термин "глубокое обучение" обозначает сложные знания, необходимые для обобщения. Техника все еще находится в стадии разработки, что затрудняет отслеживание новых достижений.
Ученым, специализирующимся на глубоком обучении, требуются высокоуровневые графические процессоры для обработки больших объемов данных. Вот почему эти методы пользуются большим успехом в жанрах, связанных с изображениями, звуком и видео.
Список литературы:
- Д.А. Тархов. Нейронные сети. Модели и алгоритмы. М., Радиотехника, 2005. (Научная серия "Нейрокомпьютеры и их применение", ред. А.И.Галушкин. Кн.18.)
- З.М. Шибзухов. Некоторые вопросы теоретической нейроинформатики. В кн.: XIII Всероссийская научно-техническая конференция "Нейроинформатика-2011". Лекции по нейроинформатике. М., НИЯУ МИФИ, 2010. С.44-72.
- И.М. Дремин, О.В. Иванов, В.А. Нечитайло. Вейвлеты и их использование. Успехи физических наук, Май 2001, т.171, стр.5.
Оставить комментарий