Статья опубликована в рамках: CXXV Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 08 мая 2023 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
РАЗРАБОТКА НЕЙРОСЕТЕВОЙ МОДЕЛИ ДЛЯ ОПРЕДЕЛЕНИЯ РЕЧЕВЫХ ПАТОЛОГИЙ
АННОТАЦИЯ
Нарушения голоса препятствуют нормальному взаимодействию между индивидами. Но клинические способы выявления причин голосовых патологий требуют высоких затрат времени, денег и зачастую требуют проведения инвазивных операций. Поэтому чрезвычайно актуальным является разработка программных методов определения голосовых патологий. Однако большинство существующих работ имеет один общий недостаток: они используют весьма небольшие наборы данных с однотипными записями. В данной работе указанный недостаток устранен с помощью использования большого количества допустимых классов заболеваний и видов аудиозаписей. Рассмотрены различные виды нейросетевых классификаторов, работающих с мел-спектрограммами и мел-частотными кепстральными коэффициентами в качестве входных данных. Лучшая модель показывает результаты 68% полноты и 72% точности в задаче классификации с 26-ю классами.
1 Введение
Голос является естественным инструментом для общения, осуществляемого людьми. Тем не менее, всегда есть барьеры для эффективного голосового общения. Нарушение речи из-за голосовых патологий является одним из них. Согласно недавнему отчету, опубликованному Национальным центром статистики образования, около 20% детей и молодежи в возрастной группе 3-21 года страдают от голосовых патологий.
Чтобы обнаружить патологии голоса, исследователи используют несколько характерных для голоса признаков. Наиболее распространенные: мел-частотные кепстральные коэффициенты, спектрограмма, форманты, коэффициенты вейвлет-разложения, линейное предиктивное кодирование, перцептивное линейное предсказание.
Большинство работ на эту тему имеют один общий недостаток: они используют весьма небольшие наборы данныхс однотипными записями, например долгимигласными и классифицируют небольшое число различных патологий.
В данной работе указанный недостаток устранен с помощью использования большого количества допустимых классов заболеваний и видов аудиозаписей. В качестве базы данных выбрана база данных Advanced Voice Function Assessment Databases (AVFAD) [1], содержащая 8648 различных аудиозаписей, включающих в себя примеры 26 различных патологий и различные примеры голоса: помимо удержания гласных, также чтение предложений и спонтанная речь.
2 Методы
В качестве признаков для классификации в этой работе используются мел-спектрограммы, имитирующие восприятие звука человеческим ухом, и мел-частотные кепстральные коэффициенты, которые являются де-факто стандартом при работе с голосовыми данными, так как позволяют с высокой точностью описать голосовой тракт.
На рисунках 1и 2 приведены примеры спектрограмм для нормального и патологического голоса соответственно
Рисунок1 Спектрограмма здорового голоса
Рисунок 2 Спектрограмма патологического голоса
Для решения задачи используются следующие нейросетевые архитектуры:
- Сверточная нейронная сеть
- Сверточная нейронная сеть совместно с рекуррентным слоем
- Трансформер Vision transformer (ViT) [2]
Используемая сверточная сеть состоит из сверточных блоков, включающих в себя:
- 2 сверточных слоя с n фильтрами 3х3 и функцией активации RELU
- Слоя батч-нормализации
- Слоя субдискретизации MaxPooling с размером ядра 2х2 и шагом 2 для уменьшения размерности изображения в 2 раза
- Слоя дропаута с вероятностью для предотвращения переобучения
Пример архитектуры для одной из вариации модели можно видеть на рис.3. В данной сети в качестве оптимизатора использовался Adam.
Рисунок 3. Архитектура сети CNN
Свёрточно-рекуррентная нейронная сеть (CRNN) практически полностью повторяет архитектуру CNN, за исключением того, что выход последнего свёрточного блока подается не на полносвязный слой, а на рекуррентный слой Long short-term memory (LSTM).
Итоговую архитектуру сети можно видеть на рисунке 4.
Рисунок 4. Архитектурасети CRNN
В качестве последней архитектуры используется разработанный компанией Google трансформер Vision Transformer* [2]. Данная архитектура включена в исследовательских целях, так как ViT не имеет подобного сверточным сетям индуктивного смещения, в виду того, что только слои многослойных перцептронов являются локальными и трансляционно-эквивариантными, тогда как слои само-внимания являются глобальными. Cтруктура двумерной решетки используется очень ограниченно. Кроме этого, позиционные эмбеддинги во время инициализации не несут никакой информации о пространственных положениях фрагментов, и все пространственные отношения между фрагментами должны быть изучены сетью с нуля.
Вследствие этого требуются датасеты больших размеров для получения робастных результатов.
3 Эксперименты
Данные в базе изначально хранятся в виде .wav файлов с частотой дискретизации 48кГц и глубиной 128 бит.
В таком формате данные занимают в ОЗУ компьютера слишком много места. Также в рамках задачи не требуется иметь настолько высокое разрешение, поэтому для всех записей частота дискретизации была понижена до 16кГц с глубиной 16 бит.
- Далее обработка происходила по следующему плану:
- все аудиозаписи делятся на сегменты длиной 1 секунду
- Каждая секунда разбивается на окна длиной 100мс или 160 отсчетов с перекрытием 50мс
- К каждому окну применяется оконная функция Хэмминга
- В зависимости от выбранных признаков вычисляется мел-спектрограмма или мел-частотные кепстральные коэффициенты
Далее полученные данные разбиваются на обучающее, тестовое и валидационное множества и подаются на вход классификаторам
3.1 CNN
Для архитектуры CNN были проведено несколько экспериментов, в которых менялись гиперпараметры, такие как величина дропаута, количество фильтров, размеры выходных полносвязных слоев.
Название модели формируется следующим образом, каждая часть отделенная нижним подчеркиванием означает определенный блок – буква вид блока, число - параметр: «с»xx – сверточный блок с xx фильтрами, «d»yy –полносвязный слой с y нейронов, «r»zz–слой lstm c zz нейронами, dr – уровень дропаута между блоками.
Таблица 1
Результаты для различных архитектур CNN
Модель |
MFCC Полнота/Точность (%) |
Спектрограмма Полнота/Точность (%) |
c32_c64_c128_d1024_d128_dr0.3 |
63/65 |
60/68 |
c32_c64_c128_d1024_d128_dr0.5 |
54/70 |
61/65 |
c32_c64_c128_d512_d128_dr0.3 |
48/67 |
60/67 |
c32_c64_c128_d512_d64_dr0.3 |
35/78 |
60/66 |
В табл. 1 приведены результаты тестирования различных моделей.
В табл. 2 приведены результаты для различных вариаций архитектур CRNN
Таблица 2
Результаты для различных архитектур CRNN
Модель |
MFCC Полнота/Точность (%) |
Спектрограмма Полнота/Точность(%) |
c32_c64_c128_r128_d128_d28_dr0.3 |
74/76 |
58/71 |
c32_c64_c128_r128_d28_d128_dr0.6 |
71/72 |
60/70 |
c32_c64_c128_r64_d128_d28_dr0.3 |
68/72 |
61/70 |
c32_c64_c128_r64_d64_d28_dr0.3 |
63/71 |
60/69 |
В таб. 3 приведены результаты для сети трансформер.
Таблица 3.
Результаты для различных архитектур ViT
Модель |
MFCC Полнота/Точность (%) |
Спектрограмма Полнота (%) |
D = 48, N = 4 |
48/58 |
42/51 |
D = 32, N = 4 |
52/64 |
42/53 |
Результаты для данной архитектуры значительно уступают сетям CNN и CRNN, что объясняется недостаточным размером обучающего множества ввиду слабого индуктивного смещения трансформеров.
Как следует из полученных результатов, мел-спектрограмма в качестве входных данных показывает более низкую эффективность по сравнению с мел-частотными кепстральными коэффициентами. Это может быть объяснено тем, что несмотря на большую размерность, она значительно хуже описывает структуру голосового тракта в отличие от кепстральных коэффициентов.
Итоговое сравнение среди лучших экземпляров для каждой архитектуры можно видеть в табл. 4.
Таблица 4.
Сравнение результатов экземпляров лучших моделей каждого класса
Модель |
Полнота (%) |
Точность (%) |
CNN + MFCC |
63 |
65 |
CRNN + MFCC |
74 |
76 |
ViT + MFCC |
52 |
64 |
На рисунках 5-7 можно видеть графики обучения для модели, показавшей наилучшую эффективность c32_c64_c128_r128_d128_d28_dr0.3.
Рисунок 5. Зависимость ошибки обучения от номера эпохи для CRNN
Рисунок 6. Зависимость полноты от номера эпохи для CRNN
Рисунок 7. Зависимость точности от номера эпохи для CRNN
4. Выводы
В данной работе была рассмотрена задача определения голосовых патологий по речевому сигналу с помощью нейронных сетей. Для этого было рассмотрено несколько моделей, использующих различные архитектуры, такие как:
- Сверточная нейронная сеть
- Сверточно-рекуррентная нейронная сеть
- VisionTransformer
и характерные признаки:
- Мел-спектрограмма
- Мел-частотные кепстральные коэффициенты
В качестве набора данных использовался AVFAD, содержащий примеры 26 голосовых патологий. Выполнена предварительная обработка речевых сигналов.
После проведения большого числа экспериментов по определению оптимальных гиперпараметров самая высокая эффективность была получена с помощью сверточно-рекуррентной нейронной сети с мел-частотными кепстральными коэффициентамив качестве характерных признаков. Точность и полнота данной модели составил 68% и 72% соответственно. Таким образом, систему многоклассовой классификации с 28 различными классами можно охарактеризовать как эффективную.
*(По требованию Роскомнадзора информируем, что иностранное лицо, владеющее информационными ресурсами Google является нарушителем законодательства Российской Федерации – прим. ред.).
Список литературы:
- L. M. T. Jesus, I. Belo, J. Machado, and A. Hall, ‘The Advanced Voice Function Assessment Databases (AVFAD): Tools for Voice Clinicians and Speech Research’, Advances in Speech-language Pathology. InTech, Sep. 13, 2017. doi: 10.5772/intechopen.69643.
- Alexey Dosovitskiy , Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, XiaohuaZhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby, “An image is worth 16 x16 words: transformers for image recognition at scale” Google Research*, Brain Team
Оставить комментарий