Статья опубликована в рамках: Научного журнала «Студенческий» № 22(318)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6, скачать журнал часть 7, скачать журнал часть 8
ВЫБОР ОПТИМАЛЬНЫХ МЕТОДОВ ПРЕДОБРАБОТКИ ДАННЫХ ДЛЯ КЛАССИФИКАЦИИ ДЕРМАТОЛОГИЧЕСКИХ ЗАБОЛЕВАНИЙ С ИСПОЛЬЗОВАНИЕМ RESNET50
АННОТАЦИЯ
Статья посвящена исследованию методов предобработки изображений, которые повысят качество набора данных перед обучением модели.
Предмет исследования — медицинские изображения кожных заболеваний.
Цель работы – определить оптимальные методы обработки изображений, выбрать способ балансировки данных и улучшить обобщающую способность модели.
Эксперименты проводились на двух наборах медицинских изображений кожных заболеваний с использованием архитектуры нейронной сети ResNet50.
В результате выявлен наиболее эффективный метод предобработки изображений, который повышает стабильность обучения и точность модели. Полученные результаты имеют практическую значимость для разработки систем анализа медицинских изображений дерматологических заболеваний.
Ключевые слова: предобработка изображений, медицинские изображения, онлайн-аугментация, обобщающая способность, перевыборка, недовыборка, балансировка, категориальные признаки, стандартизация, нормализация, кожные заболевания.
Введение
Этап предобработки данных один из важнейших этапов машинного обучения. Ведь он обеспечивает модель точностью и гибкостью в дальнейшей работе, а также решить ряд проблем.
Проблема переобучения модели вытекает из проблемы недостатка данных. Предобработка способна существенно отодвинуть момент переобучения путем изменения входных данных даже во время обучения.
Помимо количества данных на точность работы нейросетей влияет и качество этих данных. Имеется в виду не только идеально четкое изображение и ракурс съемки — обучение модели на несовершенных данных повышает ее обуславливающую способность, помогая ей в будущем лучше понимать реальные данные.
В настоящей работе рассматривается этап предобработки данных в контексте задачи диагностики кожных заболеваний. В ходе экспериментов применялась базовая архитектура ResNet, основанная на модели ResNet50 с добавлением кастомных слоев. Благодаря своей остаточной структуре, ResNet эффективно обучается на медицинских изображениях.
Датасеты
Наш выбор пал на 2 набора из архива ISIC HAM10000 и BCN20000:
- HAM10000 (7 классов): содержит 10015 дермоскопических изображений по 7 классам: актинические кератозы, базально-клеточная карцинома, доброкачественный кератоз, дерматофиброма, меланоцитарные невусы, меланома и сосудистые поражения [1].
- BCN20000 (9 классов): содержит 12413 дермоскопических изображений в 9 категориях: невусы, меланома, базально-клеточная карцинома, себорейный кератоз, актинический кератоз, солнечное лентиго, плоскоклеточная карцинома, дерматофития и сосудистые поражения [3].
Оба представленные датасета имеют профессиональный подход к разметке и дополняют друг друга за счет схожего состава признаков и классов. Для нашей работы использовались следующие признаки — локализация поражения, пол и возраст пациента.
Перед тем как проводить исследование датасета значение Nan для возраста было заменено медианным значением, а для категориальных признаков значением unk.
При обработке пропусков можно пойти следующими путями: избавиться от соответствующих строк или избавиться от атрибута [4]. В случае работы с категориальными атрибутами, решение будет зависеть от двух факторов: насколько важен сам атрибут, и готовы ли мы расстаться с частью данных. При обработке неизвестных категорий необходимо предварительно оценить важность представленных признаков, поскольку один из подходов предполагает полное удаление атрибута.
Введем краткие обозначения болезней: меланоцитарные невусы - nv, меланома - mel, доброкачественные кератозоподобные поражения - bkl, базальноклеточная карцинома - bcc, актинический кератоз - akies, сосудистые поражения - vasc и дерматофиброма - df.
На данный момент распределение следующее: nv – 52.28%, mel – 18.12%, bcc – 13.27%, bkl – 10.68%, akies – 3.59%, vasc – 1.06%, df – 0.99%. Если признак абсолютно случаен и не имеет связи с заболеванием, то это распределение останется неизменным. Иные случаи будем считать взаимосвязями, которые могут быть потенциально полезными при диагностике. Расчет условных вероятностей производился по формуле:
Где – общее количество наблюдений с признаком
,
– количество наблюдений с признаками
одновременно.
а. б.
Рисунок 1. Матрицы условных вероятностей для пола и возраста
Распределения заболеваний относительно пола на рисунке 1а кажутся довольно похожими, однако наблюдается закономерность: у мужчин более распространены злокачественные заболевания и частота диагностики невуса ниже на 7,3%.
Данные на рисунке 2 наглядно отражают, что частота диагностирования невуса снижается по мере «взросления» пациентов более чем на 70%. Также в зависимости от возраста повышается частота классов bkl, mel, bcc и akiec.
Возраст является полезным признаком, так как он имеет взаимосвязь со всеми представленными в датасете злокачественными образованиями.
Для определения ценности отдельных признаков был проведен ряд экспериментов с разной комбинацией атрибутов. Для оценки значимости атрибутов использовалась матрица корреляции между наличием конкретных признаков и выходными показателями модели.
Рисунок 2. Матрица корреляции признаков и оценок
Как видно из рисунка 2, подтвердилась полезность возраста. К остальным параметрам модель осталась равнодушной, другие параметры не показали значимого влияния. Отдельно следует заметить, что модель имеет меньшие ошибки при включенном расположении.
Анализ следует начать с рассмотрения базовых методов предобработки, направленных на то, чтобы привести данные в нужный вид для обучения модели.
Существуют два распространенных способа обеспечения того же самого масштаба у всех атрибутов: масштабирование по минимаксу или нормализация (min-max scaling) и стандартизация (standardization) [4].
При нормализации датасета его вес увеличивается в 8 раз, так как данные цветов пикселей изображений мы получаем в формате float64. Для изображения и возраста достаточно точности 3-2 знака после запятой. Остановимся на формате 16-ти битных чисел (float16), чтобы уменьшить в 4 раза расход оперативной памяти. Если обратиться к независимым исследованиям, то точность снижается на более чем на 1% [6].
Неизвестные категории обрабатывались следующим образом. Пол пациента кодировался так: 1 – мужской и 0 – все остальные. Признак неизвестной локализации был исключен из анализа после выполнения унитарного кодирования. Для масштабирования числового признака возраста применялась нормализация и деление на 100.
Таблица 1.
Сравнение нормализации и стандартизации
Общие и классовые метрики |
Нормализация |
Стандартизация |
---|---|---|
Test Loss |
0.896518 |
0.928151 |
Test Accuracy |
0.732645 |
0.724550 |
Validation Loss |
0.762161 |
0.842953 |
Validation Accuracy |
0.768129 |
0.746420 |
Accuracy mel |
0.497343 |
0.461211 |
Accuracy nv |
0.917814 |
0.906803 |
Accuracy bcc |
0.762857 |
0.732857 |
Accuracy akiec |
0.369427 |
0.420382 |
Accuracy bkl |
0.321012 |
0.406615 |
Accuracy df |
0.511628 |
0.418605 |
Accuracy vasc |
0.906977 |
0.790698 |
Расчеты общих и классовых метрик в таблице 1 приводят к утверждению, что нормализация дает более стабильные результаты на обоих наборах данных.
Метод аугментации используется для уменьшения переобучения. Это достигается путем обучения моделей на нескольких слегка измененных копиях существующих данных [5]. Выбранные методы аугментации для данной задачи должны быть безопасны и не искажать метки. Для улучшения способности ориентироваться при различном позиционировании объекта были выбраны геометрические преобразования: поворот изображения на угол от 1° до 30° по или против часовой стрелки и сдвиг изображений до 30%. Также, чтобы сильно не искажать такой важный признак как цвет, но при этом модель была приспособлена к различным условиям освещения, были выполнены манипуляции с изменением яркости и контраста.
Главное препятствие расширения обучающего набора — ограниченное место на диске. В рамках настоящего исследования вычислительные ресурсы для проведения опытов ограничены.
Для решения проблемы ограниченного объема обучающих данных был применен метод онлайн-аугментации, или аугментации «на лету». Его суть заключается в применении методов аугментации к изображениям непосредственно во время обучения. Однако стоит отметить, что данный подход затрудняет контроль за сохранением диагностической значимости преобразованных изображений.
В ходе эксперимента были реализованы три генератора с различной степенью преобразований: легкая, средняя и сильная аугментация. Проведено сравнительное исследование их влияние на качество обучения модели в сопоставлении с базовым вариантом без аугментации.
Результаты сравнения различных типов аугментации для общих и классовых метрик представлены в таблице 2.
Таблица 2.
Сравнение видов аугментации
Общие и классовые метрики |
Без аугментации |
Легкая аугментация |
Средняя аугментация |
Сильная аугментация |
---|---|---|---|---|
Test Loss |
0.882548 |
0.928151 |
0.924748 |
0.942763 |
Test Accuracy |
0.735681 |
0.72455 |
0.7288 |
0.737098 |
Validation Loss |
0.794316 |
0.842953 |
0.794304 |
0.766724 |
Validation Accuracy |
0.760739 |
0.74642 |
0.749654 |
0.781524 |
Accuracy mel |
0.476089 |
0.461211 |
0.510096 |
0.536663 |
Accuracy nv |
0.932363 |
0.906803 |
0.894219 |
0.920959 |
Accuracy bcc |
0.762857 |
0.732857 |
0.717143 |
0.738571 |
Accuracy akiec |
0.452229 |
0.420382 |
0.394904 |
0.369427 |
Accuracy bkl |
0.309339 |
0.406615 |
0.447471 |
0.332685 |
Accuracy df |
0.44186 |
0.418605 |
0.418605 |
0.465116 |
Accuracy vasc |
0.767442 |
0.790698 |
0.813953 |
0.674419 |
Расчеты позволяют сделать следующие выводы: умеренная аугментация данных демонстрирует ограниченную эффективность и проявляет некоторое негативное влияние на качество классификации; сильная аугментация за счет коррекции яркости показывает более значимый эффект в снижении степени переобучения модели.
К каждому классу необходим индивидуальный подход аугментации, но не в одинаковой мере. Рассмотрим каждый класс: nv не требуется дополнительной аугментации в силу многочисленности данных в выборке; mel и bcc нуждаются в сильной аугментации; vasc и bkl необходимо применить среднюю аугментацию; akies и df не нужна аугментация из-за риска разрушения важных признаков.
Полученные результаты подталкивает к потребности в написании кастомного генератора, учитывающего классовые особенности, что может быть реализовано в будущих исследованиях для улучшения обобщающей способности модели.
В представленном наборе данных наблюдается характерный для медицинской диагностики дисбаланс классов, при котором совокупность недоброкачественных образований в меньшинстве.
К распространенным методам устранения дисбаланса классов на уровне алгоритмов относят: случайная перевыборка (ROS), случайная недовыборка (RUS), метод синтетической перевыборки меньшинства (SMOTE) и взвешивание [2].
В ходе исследования основное внимание будет сосредоточено на двух ключевых стратегиях: случайная перевыборка и взвешивание классов.
Случайная перевыборка в совокупности с онлайн аугментацией не ведет к переобучению, а фактически увеличивает вероятность того, что изображения какого-либо класса попадет в обучающий батч.
Перед реализацией перевыборкки необходимо провести расчет точного количества изображений в классе, чтобы определить оптимальный коэффициент увеличения для каждого малочисленного класса, сохраняя баланс между улучшением представленности и риском переобучения. Выполнили вывод количества классов: nv–10332, mel–3581, bcc–2623, bkl–2110, akies–710, vasc–210, df–196. Здесь наблюдается достаточно большой разрыв. Однако исключение редких категорий для балансирования выборки может привести к потере ценных данных. В связи с этим была применена перевыборка меньших классов до разумного количества, а остальные оставлены без изменений. Такой подход сохранил информативность данных и минимизировал негативное влияние дисбаланса на качество обучения модели.
Для оценки эффективности методов балансировки классов данных были проведены эксперименты с различными типами распределения и наличием или отсутствием весов классов. Все эксперименты выполнялись в одинаковых условиях для обеспечения сопоставимости результатов. Полученные данные для общих и классовых метрик представлены в таблице 3.
Таблица 3.
Сравнение способов решения дисбаланса классов
Общие и классовые метрики |
Оригинальное распределение |
С весами |
Равномерное распределение |
Равномерное с весами |
---|---|---|---|---|
Test Loss |
0.798692 |
1.260761 |
0.924748 |
1.410445 |
Test Accuracy |
0.728193 |
0.554341 |
0.7288 |
0.550293 |
Validation Loss |
0.800459 |
1.25396 |
0.794304 |
1.290277 |
Validation Accuracy |
0.733434 |
0.555893 |
0.749654 |
0.576443 |
Accuracy mel |
0.486716 |
0.434644 |
0.510096 |
0.454835 |
Accuracy nv |
0.91742 |
0.695635 |
0.894219 |
0.708612 |
Accuracy bcc |
0.735714 |
0.214286 |
0.717143 |
0.254286 |
Accuracy akiec |
0.312102 |
0.764331 |
0.394904 |
0.770701 |
Accuracy bkl |
0.414397 |
0.445525 |
0.447471 |
0.227626 |
Accuracy df |
0.093023 |
0.604651 |
0.418605 |
0.837209 |
Accuracy vasc |
0.604651 |
0.837209 |
0.813953 |
0.860465 |
По результатам в таблице 3, случайная перевыборка дала наибольшую точность на обоих наборах данных. Применение весов классов существенно улучшают классификацию редких классов, однако приводит к значительному снижению точности распознавания многочисленных классов. Это объясняется тем, что модель, стремясь минимизировать ошибки на редких классах, начинает чаще ошибочно относить к ним объекты других классов и недостоверно предсказывать диагноз. По этой причине пострадала общая точность обучения модели.
При этом комбинация этих методов практически не показало видимых преимуществ, что позволяет сделать вывод о большей эффективности перевыборки по сравнению с взвешиванием весов. Метод случайной перевыборки обеспечил более равномерное улучшение показателей, демонстрируя стабильный рост точности для большинства классов без существенного ухудшения результатов.
На основании полученных результатов в качестве оптимального метода балансировки данных выбор остановлен на случайной перевыборке. Тем не менее, учитывая сильное влияние весов классов на обучение модели, перспективным направлениям для продолжения исследования является тонкая настройка данных параметров для достижения более сбалансированного улучшения точности по всем редким классам.
Выводы
Основные трудности в ходе исследования и решения обусловлены фактом того, что классы обладают высокой визуальной схожестью между различными классами заболеваний, а также вариабельностью проявлений внутри одного класса. Однако современные нейросетевые подходы в компьютерном зрении могут выявлять сложные закономерности. Это и позволяет нам рассчитывать на успешное решение данной сложной и востребованной в сфере дерматологии задачи.
Список литературы:
- Jason Brownlee. How to use Learning Curves to Diagnose Machine Learning Model Performance // Machine Learning Mastery. - 2019. - [электронный ресурс]. - Режим доступа. - URL: https://machinelearningmastery.com/learning-curves-for-diagnosing-machine-learning-model-performance/ (дата обращения: 17.05.2025).
- Джоффри Л.Л., Таги М.К., Ричард А.Б., Наим С. Обзор методов устранения дисбаланса в больших данных // Springer J Big Data - 2018. - Vol. 5. P. 42. [электронный ресурс] - Режим доступа. - URL: https://link.springer.com/article/10.1186/s40537-018-0151-6 (дата обращения: 17.05.2025).
- Nature Scientific Data. Открытые датасеты для медицинских исследований // Scientific data - 2024. - №61. [электронный ресурс] - Режим доступа. - URL: https://www.nature.com/articles/s41597-024-03387-w (дата обращения: 17.05.2025).
- Герон О. Прикладное машинное обучение. М.: ДМК Пресс, 2023. - 480 с.
- Шортен К., Хошгофтаар Т.М. Обзор методов увеличения данных изображений для глубокого обучения // J Big Data. - 2019. - Vol. 6. P. 60. [электронный ресурс] - Режим доступа. - URL: https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0 (дата обращения: 17.05.2025).
- Хабр. Глубокое обучение для анализа изображений // Хабр. - 2023. - [электронный ресурс]. - Режим доступа. - URL: https://habr.com/ru/companies/wunderfund/articles/776496/ (дата обращения: 17.05.2025).
Оставить комментарий