Статья опубликована в рамках: CXXV Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 08 мая 2023 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Лысенко И.И. РАЗРАБОТКА НЕЙРОСЕТЕВОЙ МОДЕЛИ ДЛЯ ОПРЕДЕЛЕНИЯ РЕЧЕВЫХ ПАТОЛОГИЙ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. CXXV междунар. студ. науч.-практ. конф. № 5(123). URL: https://sibac.info/archive/technic/5(123).pdf (дата обращения: 13.07.2025)

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

РАЗРАБОТКА НЕЙРОСЕТЕВОЙ МОДЕЛИ ДЛЯ ОПРЕДЕЛЕНИЯ РЕЧЕВЫХ ПАТОЛОГИЙ

Лысенко Илья Игоревич

студент, магистрант, кафедра автоматизации научных исследований, факультет вычислительной математики и кибернетики, Московского государственного университета имени М.В. Ломоносова (МГУ),

РФ, Москва

Шишкин Алексей Геннадиевич

научный руководитель,

д-р физ.-мат. наук, проф. кафедры автоматизации научных исследований, факультет вычислительной математики и кибернетики, Московского государственного университета имени М.В. Ломоносова (МГУ),

РФ, Москва

АННОТАЦИЯ

Нарушения голоса препятствуют нормальному взаимодействию между индивидами. Но клинические способы выявления причин голосовых патологий требуют высоких затрат времени, денег и зачастую требуют проведения инвазивных операций. Поэтому чрезвычайно актуальным является разработка программных методов определения голосовых патологий. Однако большинство существующих работ имеет один общий недостаток: они используют весьма небольшие наборы данных с однотипными записями. В данной работе указанный недостаток устранен с помощью использования большого количества допустимых классов заболеваний и видов аудиозаписей. Рассмотрены различные виды нейросетевых классификаторов, работающих с мел-спектрограммами и мел-частотными кепстральными коэффициентами в качестве входных данных. Лучшая модель показывает результаты 68% полноты и 72% точности в задаче классификации с 26-ю классами.

1 Введение

Голос является естественным инструментом для общения, осуществляемого людьми. Тем не менее, всегда есть барьеры для эффективного голосового общения. Нарушение речи из-за голосовых патологий является одним из них. Согласно недавнему отчету, опубликованному Национальным центром статистики образования, около 20% детей и молодежи в возрастной группе 3-21 года страдают от голосовых патологий.

Чтобы обнаружить патологии голоса, исследователи используют несколько характерных для голоса признаков. Наиболее распространенные: мел-частотные кепстральные коэффициенты, спектрограмма, форманты, коэффициенты вейвлет-разложения, линейное предиктивное кодирование, перцептивное линейное предсказание.

Большинство работ на эту тему имеют один общий недостаток: они используют весьма небольшие наборы данныхс однотипными записями, например долгимигласными и классифицируют небольшое число различных патологий.

В данной работе указанный недостаток устранен с помощью использования большого количества допустимых классов заболеваний и видов аудиозаписей. В качестве базы данных выбрана база данных Advanced Voice Function Assessment Databases (AVFAD) [1], содержащая 8648 различных аудиозаписей, включающих в себя примеры 26 различных патологий и различные примеры голоса: помимо удержания гласных, также чтение предложений и спонтанная речь.

2 Методы

В качестве признаков для классификации в этой работе используются мел-спектрограммы, имитирующие восприятие звука человеческим ухом, и мел-частотные кепстральные коэффициенты, которые являются де-факто стандартом при работе с голосовыми данными, так как позволяют с высокой точностью описать голосовой тракт.

На рисунках 1и 2 приведены примеры спектрограмм для нормального и патологического голоса соответственно

Рисунок1 Спектрограмма здорового голоса

Рисунок 2 Спектрограмма патологического голоса

Для решения задачи используются следующие нейросетевые архитектуры:

Сверточная нейронная сеть
Сверточная нейронная сеть совместно с рекуррентным слоем
Трансформер Vision transformer (ViT) [2]

Используемая сверточная сеть состоит из сверточных блоков, включающих в себя:

2 сверточных слоя с n фильтрами 3х3 и функцией активации RELU
Слоя батч-нормализации
Слоя субдискретизации MaxPooling с размером ядра 2х2 и шагом 2 для уменьшения размерности изображения в 2 раза
Слоя дропаута с вероятностью для предотвращения переобучения

Пример архитектуры для одной из вариации модели можно видеть на рис.3. В данной сети в качестве оптимизатора использовался Adam.

Рисунок 3. Архитектура сети CNN

Свёрточно-рекуррентная нейронная сеть (CRNN) практически полностью повторяет архитектуру CNN, за исключением того, что выход последнего свёрточного блока подается не на полносвязный слой, а на рекуррентный слой Long short-term memory (LSTM).

Итоговую архитектуру сети можно видеть на рисунке 4.

Рисунок 4. Архитектурасети CRNN

В качестве последней архитектуры используется разработанный компанией Google трансформер Vision Transformer* [2]. Данная архитектура включена в исследовательских целях, так как ViT не имеет подобного сверточным сетям индуктивного смещения, в виду того, что только слои многослойных перцептронов являются локальными и трансляционно-эквивариантными, тогда как слои само-внимания являются глобальными. Cтруктура двумерной решетки используется очень ограниченно. Кроме этого, позиционные эмбеддинги во время инициализации не несут никакой информации о пространственных положениях фрагментов, и все пространственные отношения между фрагментами должны быть изучены сетью с нуля.

Вследствие этого требуются датасеты больших размеров для получения робастных результатов.

3 Эксперименты

Данные в базе изначально хранятся в виде .wav файлов с частотой дискретизации 48кГц и глубиной 128 бит.

В таком формате данные занимают в ОЗУ компьютера слишком много места. Также в рамках задачи не требуется иметь настолько высокое разрешение, поэтому для всех записей частота дискретизации была понижена до 16кГц с глубиной 16 бит.

Далее обработка происходила по следующему плану:
все аудиозаписи делятся на сегменты длиной 1 секунду
Каждая секунда разбивается на окна длиной 100мс или 160 отсчетов с перекрытием 50мс
К каждому окну применяется оконная функция Хэмминга
В зависимости от выбранных признаков вычисляется мел-спектрограмма или мел-частотные кепстральные коэффициенты

Далее полученные данные разбиваются на обучающее, тестовое и валидационное множества и подаются на вход классификаторам

3.1 CNN

Для архитектуры CNN были проведено несколько экспериментов, в которых менялись гиперпараметры, такие как величина дропаута, количество фильтров, размеры выходных полносвязных слоев.

Название модели формируется следующим образом, каждая часть отделенная нижним подчеркиванием означает определенный блок – буква вид блока, число - параметр: «с»xx – сверточный блок с xx фильтрами, «d»yy –полносвязный слой с y нейронов, «r»zz–слой lstm c zz нейронами, dr – уровень дропаута между блоками.

Таблица 1

Результаты для различных архитектур CNN

Модель	MFCC Полнота/Точность (%)	Спектрограмма Полнота/Точность (%)
c32_c64_c128_d1024_d128_dr0.3	63/65	60/68
c32_c64_c128_d1024_d128_dr0.5	54/70	61/65
c32_c64_c128_d512_d128_dr0.3	48/67	60/67
c32_c64_c128_d512_d64_dr0.3	35/78	60/66

В табл. 1 приведены результаты тестирования различных моделей.

В табл. 2 приведены результаты для различных вариаций архитектур CRNN

Таблица 2

Результаты для различных архитектур CRNN

Модель	MFCC Полнота/Точность (%)	Спектрограмма Полнота/Точность(%)
c32_c64_c128_r128_d128_d28_dr0.3	74/76	58/71
c32_c64_c128_r128_d28_d128_dr0.6	71/72	60/70
c32_c64_c128_r64_d128_d28_dr0.3	68/72	61/70
c32_c64_c128_r64_d64_d28_dr0.3	63/71	60/69

В таб. 3 приведены результаты для сети трансформер.

Таблица 3.

Результаты для различных архитектур ViT

Модель	MFCC Полнота/Точность (%)	Спектрограмма Полнота (%)
D = 48, N = 4	48/58	42/51
D = 32, N = 4	52/64	42/53

Результаты для данной архитектуры значительно уступают сетям CNN и CRNN, что объясняется недостаточным размером обучающего множества ввиду слабого индуктивного смещения трансформеров.

Как следует из полученных результатов, мел-спектрограмма в качестве входных данных показывает более низкую эффективность по сравнению с мел-частотными кепстральными коэффициентами. Это может быть объяснено тем, что несмотря на большую размерность, она значительно хуже описывает структуру голосового тракта в отличие от кепстральных коэффициентов.

Итоговое сравнение среди лучших экземпляров для каждой архитектуры можно видеть в табл. 4.

Таблица 4.

Сравнение результатов экземпляров лучших моделей каждого класса

Модель	Полнота (%)	Точность (%)
CNN + MFCC	63	65
CRNN + MFCC	74	76
ViT + MFCC	52	64

На рисунках 5-7 можно видеть графики обучения для модели, показавшей наилучшую эффективность c32_c64_c128_r128_d128_d28_dr0.3.

Рисунок 5. Зависимость ошибки обучения от номера эпохи для CRNN

Рисунок 6. Зависимость полноты от номера эпохи для CRNN

Рисунок 7. Зависимость точности от номера эпохи для CRNN

4. Выводы

В данной работе была рассмотрена задача определения голосовых патологий по речевому сигналу с помощью нейронных сетей. Для этого было рассмотрено несколько моделей, использующих различные архитектуры, такие как:

Сверточная нейронная сеть
Сверточно-рекуррентная нейронная сеть
VisionTransformer

и характерные признаки:

Мел-спектрограмма
Мел-частотные кепстральные коэффициенты

В качестве набора данных использовался AVFAD, содержащий примеры 26 голосовых патологий. Выполнена предварительная обработка речевых сигналов.

После проведения большого числа экспериментов по определению оптимальных гиперпараметров самая высокая эффективность была получена с помощью сверточно-рекуррентной нейронной сети с мел-частотными кепстральными коэффициентамив качестве характерных признаков. Точность и полнота данной модели составил 68% и 72% соответственно. Таким образом, систему многоклассовой классификации с 28 различными классами можно охарактеризовать как эффективную.

*(По требованию Роскомнадзора информируем, что иностранное лицо, владеющее информационными ресурсами Google является нарушителем законодательства Российской Федерации – прим. ред.).

Список литературы:

L. M. T. Jesus, I. Belo, J. Machado, and A. Hall, ‘The Advanced Voice Function Assessment Databases (AVFAD): Tools for Voice Clinicians and Speech Research’, Advances in Speech-language Pathology. InTech, Sep. 13, 2017. doi: 10.5772/intechopen.69643.
Alexey Dosovitskiy , Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, XiaohuaZhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby, “An image is worth 16 x16 words: transformers for image recognition at scale” Google Research*, Brain Team

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

РАЗРАБОТКА НЕЙРОСЕТЕВОЙ МОДЕЛИ ДЛЯ ОПРЕДЕЛЕНИЯ РЕЧЕВЫХ ПАТОЛОГИЙ

Оставить комментарий