Статья опубликована в рамках: CLXVIII Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 06 июля 2023 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Киреева М.Н., Воронина Е.Ю., Огнева Т.А. СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ КЛАССИФИКАЦИИ НА ПРИМЕРЕ ОПРЕДЕЛЕНИЯ АНТАРКТИЧЕСКИХ ПИНГВИНОВ // Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ: сб. ст. по мат. CLXVIII междунар. студ. науч.-практ. конф. № 13(167). URL: https://sibac.info/archive/meghdis/13(167).pdf (дата обращения: 23.07.2026)

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

У данной статьи нет
дипломов

СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ КЛАССИФИКАЦИИ НА ПРИМЕРЕ ОПРЕДЕЛЕНИЯ АНТАРКТИЧЕСКИХ ПИНГВИНОВ

Киреева Маргарита Николаевна

студент, факультет компьютерных наук и информационных технологий, Саратовский национальный исследовательский государственный университет имени Н.Г. Чернышевского,

РФ, г. Саратов

Воронина Екатерина Юрьевна

РФ, г. Саратов

Огнева Татьяна Алексеевна

РФ, г. Саратов

Лапшева Елена Евгеньевна

научный руководитель,

старший преподаватель, факультет компьютерных наук и информационных технологий, Саратовский национальный исследовательский государственный университет имени Н.Г. Чернышевского,

РФ, г. Саратов

COMPARATIVE ANALYSIS OF CLASSIFICATION METHODS USING THE ANTARCTIC PENGUIN DEFINITION AS AN EXAMPLE

Margarita Kireeva

student, Faculty of Computer Science and Information Technologies, Saratov State University,

Russia, Saratov

Ekaterina Voronina

student, Faculty of Computer Science and Information Technologies, Saratov State University,

Russia, Saratov

Tatiana Ogneva

student, Faculty of Computer Science and Information Technologies, Saratov State University,

Russia, Saratov

Elena Lapsheva

scientific supervisor, Senior Lecturer, Faculty of Computer Science and Information Technologies, Saratov State University,

Russia, Saratov

АННОТАЦИЯ

В статье описывается сравнительный анализ методов классификации на примере обработки набора данных с характеристиками антарктических пингвинов. Исследование включало в себя следующие этапы: разведочный анализ, необходимая предобработка, логистическая регрессия, деревья решений и метод k ближайших соседей. Результаты анализа были исследованы с помощью матриц путаниц и столбчатых диаграмм.

ABSTRACT

The article presents a comparative analysis of classification methods using the processing of a dataset with the characteristics of Antarctic penguins as an example. The study included the following steps: exploratory data analysis, necessary preprocessing, logistic regression, decision tree classifier, and the k nearest neighbor method. The results of the analysis were explored using confusion matrices and bar charts.

Ключевые слова: машинное обучение; обучение с учителем; классификация; разведочный анализ; предобработка.

Keywords: machine learning; supervised learning; classification; exploratory data analysis; data preprocessing.

Разведочный анализ — предварительное исследование набора данных с целью определения его основных характеристик, взаимосвязей между признаками, а также сужения набора методов, используемых для создания модели машинного обучения [1].

Предметная область данной работы — это сфера экологических исследований пингвинов архипелага Палмер. Исследуемый в работе набор данных Palmer Archipelago (Antarctica) penguin dataset состоит из 344 уникальных записей, каждая из которых содержит по 17 параметров-характеристик [2].

Виды признаков набора данных:

Категориальные
1. Species — строка символов, обозначающая вид пингвина.
2. Region — строковое наименование региона обитания пингвина.
3. Island — строковое наименование острова, где обитает пингвин.
4. Stage — строка символов, обозначающая репродуктивную стадию пингвина.
5. Comments — строка, указывающая на особенность образца.
6. Sex — пол животного.
7. Clutch Completion — наблюдается ли в исследуемом гнезде полная кладка — 2 яйца.
Числовые
1. Culmen Length — длина спинного гребня птичьего клюва в миллиметрах.
2. Culmen Depth — глубина спинного гребня птичьего клюва в миллиметрах.
3. Flipper Length — длина плавника пингвина в миллиметрах.
4. Body Mass — масса тела пингвина в граммах.
5. Delta 15N — , значение подписи стабильного изотопа азота.
6. Delta 13C — , значение подписи стабильного изотопа углерода.
Дата
1. Date Egg — дата завершения кладки яиц.

Пропуски отсутствуют в колонках studyName, Sample Number, Species, Region, Island, Stage, Individual ID, Clutch Completion, Date Egg. Пропуски в размере 0.6% от выборки содержатся в параметрах Culmen Length, Culmen Depth, Flipper Length, Body Mass. Столбец Sex содержит 3% пропусков, Delta 15N - 4%, Delta 13C - 4% и Comments - 92%. Однако, стоит отметить, что значение NaN параметра Comments указывает на отсутствие погрешностей при сборе данных об объекте. В таком случае пропуск имеет информативный смысл — отсутствие погрешностей при сборе данных об объекте.

Пингвины выборки одного возраста — "Adult, 1 Egg Stage" и проживают в одном регионе — Anvers. Ареал обитания пингвинов состоит из трех островов: Dream, Biscoe и Torgersen. Пингвины распределены неравномерно по островам: практически половина объектов выборки проживает на острове Biscoe. Оставшаяся часть проживает преимущественно на острове Dream. Меньшая доля выборки приходится на остров Torgersen.

Выборка содержит 3 вида пингвинов: Gentoo, Chinstrap и Adelie. Пингвины по видам распределены неравномерно.

На рисунке 1 изображена теплокарта корреляционной матрицы числовых признаков, на которой видно отсутствие линейных зависимостей между числовыми признаками.

Рисунок 1. Корреляционная матрица числовых признаков

Предварительная обработка (предобработка) данных в машинном обучении — это процесс подготовки данных для последующего использования в алгоритмах машинного обучения. Она включает в себя очистку данных от шумовых объектов, заполнение пропущенных значений, масштабирование, преобразование и кодирование данных в формат, который может быть использован алгоритмами машинного обучения. Предобработка данных также включает в себя разделение данных на тренировочные, тестовые и валидационные наборы, а также балансирование данных для улучшения качества обучения моделей [1].

Для предобработки даты был применен метод проекции данных на окружность с последующим использованием двух координат:

def make_harmonic_features(value, period=24):

value *= 2 * np.pi / period

return np.cos(value), np.sin(value)

Такое преобразование сохраняет дистанцию между точками, что важно для алгоритмов, основанных на подсчете расстояния между объектами, таких как метод k ближайших соседей.

Предобработка пола проводилась вручную путем анализа прочих характеристик пингвинов, имеющих пропуск пола. Пропуски распределены между видами Gentoо и Adelie следующим образом:

1. Gentoо = 5

2. Adelie = 6

Общее количество пингвинов без учета пропусков для видов Adelie и Gentoo:

1. Gentoо = 124

2. Adelie = 152

Таким образом, для сохранения баланса виду Gentoо нужно определить 4 самки и 1 самца. Виду Adelie по 3 самки и самца. Самых крупных в каждом виде определяем самцами.

Было принято решение комментарии кодировать вручную. Поскольку некоторые комментарии имеют схожий смысл, вместо 7 было выделено 3 категории:

np.nan
"Nest never observed with full clutch"
"Not enough blood for isotopes", "Adult not sampled", "No blood sample obtained", "No blood sample obtained for sexing", "Nest never observed with full clutch. Not enough blood for isotopes", "Sexing primers did not amplify. Not enough blood for isotopes"

Пропуски числовых величин заполнялись средним значением выборки по признаку.

Классификация — это категория методов обучения с учителем. При этом типе обучения данные, подаваемые на вход системы, уже размечены, а важные признаки разделены на отдельные классы. Задача классификации — отнесение объекта к одному из классов на основе его признаков [3].

Задачи классификации в нашем случае:

Разделить пингвинов по полу (бинарная классификация).
Разделить пингвинов по виду (многоклассовая классификация).

Существуют разные методы классификации, для сравнения были выбраны методы: логистическая регрессия, деревья решений и k ближайших соседей.

Для решения обеих задач будут использоваться все признаки. Числовые признаки имеют разный диапазон, поэтому при решении поставленных задач применим скалирование. Для корректной работы алгоритмов для категориальных признаков используем кодирование [4].

Для оценки качества классификации используется метрика f-мера. В случае многоклассовой классификации параметр average (тип усреднения) изменяется на ’weighted’ (средневзвешенный).

Для обеих задач была отобрана лучшая комбинация энкодеров, скейлеров и методов. Матрицы путаниц для лучших комбинаций представлены на рисунках 2 и 3.

Рисунок 2. Матрица путаниц для лучшего разбиения по полу

Рисунок 3. Матрица путаниц для лучшего разбиения по виду

Для всех комбинаций энкодеров, скейлеров и методов оценки были представлены с помощью столбчатых диаграмм. Они изображены на рисунках 4 и 5.

Рисунок 4. Столбчатая диаграмма по f-мере при классификации по полу

Рисунок 5. Столбчатая диаграмма по f-мере при классификации по виду

По результатам исследований можно сделать следующие выводы. Для бинарной классификации по полу:

Лучший результат был получен с помощью логистической регрессии с кодированием с помощью OrdinalEncoder и скалированием с помощью StandardScaler и значением параметра метода C = 206.913808111479.
Лучшим скейлером является StandardScaler, первые четыре лучших лучших результата были получены с его использованием.
MinMaxScaler очень плохо повлиял на метод k ближайших соседей. Результаты с использованием их комбинации оказались худшими для классификации по полу.

Для многоклассовой классификации по виду:

Лучший результат (максимальный, f-мера = 1) был получен с помощью метода k ближайших соседей с кодированием с помощью либо OneHotEncoder, либо OrdinalEncoder, скалированием StandardScaler. Количество соседей при этом было равно 1, расстояние между соседями вычислялось как манхэттенское.
Скалирование отрицательно отразилось на результатах многоклассовой классификации с помощью логистической регрессии: они ухудшились почти в 2 раза.
StandardScaler так же, как и для классификации по полу, является лучшим вариантом для скалирования.
Метод деревьев решений показал один и тот же результат для всех комбинаций энкодеров и скейлеров. При классификации по полу такого не наблюдалось.

Список литературы:

2 лекция. Предобработка данных [Электронный ресурс] URL: https://www.kaznu.kz/content/files/pages/folder24214/2%20лекция.Предобработка%20данных.pdf (дата обращения 28.06.2023)
Palmer Archipelago (Antarctica) penguin data | Kaggle [Электронный ресурс] URL: https://www.kaggle.com/datasets/parulpandey/palmer-archipelago-antarctica-penguin-data?select=penguins_lter.csv (дата обращения 28.06.2023)
Topic 3. Classification, Decision Trees and k Nearest Neighbors — mlcourse.ai [Электронный ресурс] URL: https://mlcourse.ai/book/topic03/topic03_decision_trees_kNN.html (дата обращения 28.06.2023)
Элбон Крис Машинное обучение с использованием Python. Сборник рецептов: Пер. с англ. — СПб.: БХВ-Петербург, 2019. — 384 с.

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

У данной статьи нет
дипломов