Статья опубликована в рамках: Научного журнала «Студенческий» № 4(342)

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6

Библиографическое описание:

Сорокин А.К. ИДЕНТИФИКАЦИЯ ЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ПО ГОЛОСУ КАК ФАКТОР ПОВЫШЕНИЯ БЕЗОПАСНОСТИ В ГРАЖДАНСКОЙ АВИАЦИИ // Студенческий: электрон. научн. журн. 2026. № 4(342). URL: https://sibac.info/journal/student/342/402359 (дата обращения: 24.07.2026).

ИДЕНТИФИКАЦИЯ ЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ПО ГОЛОСУ КАК ФАКТОР ПОВЫШЕНИЯ БЕЗОПАСНОСТИ В ГРАЖДАНСКОЙ АВИАЦИИ

Сорокин Артем Константинович

курсант, факультет летной эксплуатации и управления воздушным движением, Ульяновский институт гражданской авиации имени главного маршала авиации Б.П. Бугаева,

РФ, Ульяновск

Алексеева Татьяна Григорьевна

научный руководитель,

канд. пед. наук, доц. кафедры летной эксплуатации и безопасности полетов, Ульяновский институт гражданской авиации имени главного маршала авиации Б.П. Бугаева,

РФ, г. Ульяновск

Обеспечение безопасности полетов в гражданской авиации представляет собой многокомпонентную задачу, центральным элементом которой является человек-оператор. Пилоты и авиадиспетчеры, функционируя в условиях высокой ответственности, дефицита времени, информационной насыщенности и часто монотонной нагрузки, подвержены кумулятивному воздействию стрессогенных факторов [1]. Состояние утомления, эмоционального выгорания, острого стресса или когнитивной перегрузки напрямую влияет на качество принятия решений, скорость реакции и эффективность профессиональной деятельности, что в критических ситуациях может стать катализатором инцидентов или происшествий [2].

Традиционные подходы к мониторингу психофизиологического состояния персонала – периодические медицинские осмотры, психологическое тестирование – обладают существенным ограничением: они фиксируют состояние в конкретный момент времени и не отражают его динамику в процессе реальной профессиональной деятельности. Возникает потребность в непрерывных, ненавязчивых и объективных методах диагностики, интегрируемых непосредственно в рабочий процесс.

Одним из перспективных каналов получения информации о текущем состоянии оператора является его речь. Голосовая коммуникация является неотъемлемой и постоянно присутствующей составляющей работы как в кабине воздушного судна (внутриэкипажное радиообмен), так и на рабочем месте диспетчера УВД (внешние радиообмены). Голос человека, будучи продуктом сложной психофизиологической деятельности, несет в себе не только семантическую, но и богатую паралингвистическую информацию, отражающую его эмоциональное состояние, уровень напряженности и усталости [3]. Таким образом, речевой сигнал может рассматриваться как естественный и постоянно доступный биомаркер психоэмоционального статуса.

Актуальность исследования обусловлена необходимостью перехода от констатирующих к превентивным методам управления безопасностью, основанным на прогнозировании и раннем выявлении факторов риска, связанных с состоянием человеческого ресурса. Целью данной статьи является комплексный анализ возможностей и перспектив использования технологий идентификации эмоциональных состояний по голосу в системе обеспечения безопасности воздушного движения. Для достижения поставленной цели решаются следующие задачи:

Исследовать теоретико-методологические основы взаимосвязи эмоций и акустических параметров голоса.
Проанализировать современные технологические подходы и алгоритмы автоматического распознавания эмоций по речи.
Выявить специфические требования и ограничения, накладываемые условиями профессиональной деятельности в авиации.
Разработать концептуальные предложения по интеграции систем голосового мониторинга в практику работы авиационных предприятий.

1. Теоретические основы взаимосвязи эмоций и речевой продукции

1.1. Психофизиология эмоций и их экспрессии в речи

Эмоции представляют собой интегративные психофизиологические процессы, возникающие в ответ на значимые для индивида стимулы и выполняющие адаптационную, оценочную и регуляторную функции [4]. С точки зрения физиологии, эмоциональное переживание сопровождается комплексом изменений в вегетативной нервной системе, эндокринной регуляции и мышечном тонусе, что неизбежно сказывается на работе систем, обеспечивающих фонацию.

Процесс речеобразования является тонко координированной деятельностью дыхательных мышц, гортани (голосовые складки), надставной трубы (глотка, ротовая и носовая полости) и артикуляционного аппарата. Эмоциональное состояние модулирует работу каждой из этих систем:

Дыхательная система: При страхе или стрессе дыхание становится поверхностным и учащенным, при печали – глубоким и замедленным. Это напрямую влияет на фонационное дыхание, меняя опору звука и его длительность.
Гортань: Эмоциональное напряжение ведет к изменению тонуса внутренних и внешних мышц гортани. Повышение тонуса (гнев, тревога) вызывает увеличение частоты основного тона (F0) и сужение его диапазона. Снижение тонуса (утомление, грусть) приводит к понижению F0, появлению детренирования (дрожания) голоса.
Резонаторная система и артикуляция: Изменение мышечного тонуса в глотке и ротовой полости влияет на их объем и форму, что меняет спектральные характеристики голоса (тембр). Напряжение артикуляционных мышц может делать речь более «сжатой» и нечеткой.

Таким образом, эмоция выступает в роли своеобразного «фильтра», накладывающего характерный отпечаток на объективные акустические параметры речевого сигнала.

1.2. Ключевые акустические корреляты эмоциональных состояний

Многолетние исследования в области психоакустики и фонетики позволили выявить статистически значимые связи между определенными эмоциями и изменениями конкретных параметров голоса [5]. Наиболее информативными считаются следующие характеристики:

Параметры основного тона (частота F0):
- Среднее значение F0: Повышено при активных эмоциях (радость, гнев, страх), понижено при пассивных (печаль, усталость, скука).
- Диапазон и вариабельность F0: Значительно расширены при состояниях возбуждения (эйфория, паника) и сужены при состояниях подавленности или глубокой утомленности.
- Контур интонации: Характер движения тона во фразе (нисходящий, восходящий, ровный).
Параметры интенсивности (громкости):
- Средний уровень интенсивности: Повышен при гневе и радости, понижен при печали и усталости.
- Динамический диапазон: Изменение громкости внутри фразы.
Темпоритмические характеристики:
- Темп речи: Ускорен при тревоге, возбуждении; замедлен при унынии, утомлении или при попытке контроля над ситуацией.
- Паузация: Увеличение количества и длительности пауз, появление незапланированных пауз (хезитаций) является маркером когнитивной нагрузки, поиска решения или эмоционального напряжения.
- Плавность речи: Появление запинок, повторов, слогов-заполнителей («э-э», «м-м») связано с состоянием неуверенности или стресса.
Спектральные и тембральные характеристики:
- Формантная структура: Сдвиг частот формант (особенно первой форманты F1), связанный с изменением напряженности речевого тракта.
- Соотношение высоко- и низкочастотных компонентов спектра.
- Дрожание (jitter) и амплитудная модуляция (shimmer), свидетельствующие о нестабильности работы голосовых складок, характерной для сильного волнения или усталости.

Важно подчеркнуть, что не существует единственного уникального «акустического ключа» для каждой эмоции. Речь идет о вероятностных паттернах – комбинациях изменений нескольких параметров, которые в совокупности позволяют с той или иной степенью достоверности судить о состоянии говорящего.

2. Методологии и технологии автоматической идентификации эмоций по голосу

2.1. Общая архитектура системы распознавания

Современная система автоматической идентификации эмоций по голосу представляет собой цепочку последовательных обработок данных (пайплайн), включающую следующие основные этапы:

Запись и предварительная обработка сигнала: Обеспечение качества входного аудиосигнала, фильтрация шумов, сегментация на смысловые единицы (фразы, высказывания).
Извлечение признаков (Feature Extraction): Вычисление набора числовых параметров, описывающих акустические свойства речевого сегмента. Используются как низкоуровневые дескрипторы (F0, интенсивность, длительность), так и сложные спектральные коэффициенты: мел-кепстральные коэффициенты (MFCC), линейные предсказывающие коэффициенты (LPC), коэффициенты перцептуального линейного предсказания (PLP), а также их производные по времени.
Селекция и нормализация признаков: Отбор наиболее информативных параметров и приведение их к единому масштабу для повышения эффективности работы алгоритмов классификации.
Классификация/Регрессия: Отнесение вектора признаков к одному из дискретных эмоциональных классов (например, «нейтральное», «стресс», «гнев», «утомление») или определение уровня эмоциональной активации и валентности по непрерывным шкалам. На этом этапе применяются алгоритмы машинного обучения.
Принятие решения и интерпретация результата: Формирование итогового вывода о вероятном эмоциональном состоянии с учетом контекста и достоверности классификации.

2.2. Алгоритмические подходы к классификации

В зависимости от решаемой задачи и доступных данных используются различные подходы:

Классические методы машинного обучения: Опорные вектора (SVM), метод k-ближайших соседей (k-NN), случайные леса (Random Forest), наивный байесовский классификатор. Эти алгоритмы требуют тщательного инженерного подхода к созданию признакового пространства, но часто демонстрируют высокую эффективность на относительно небольших наборах данных.
Глубокое обучение (Deep Learning): Глубокие нейронные сети, особенно рекуррентные (RNN, LSTM – долгая краткосрочная память) и сверточные (CNN), способны автоматически извлекать сложные иерархические признаки из сырых аудиоданных или спектрограмм. Они показывают выдающиеся результаты на больших массивах данных, но требуют значительных вычислительных ресурсов для обучения и большого объема размеченных примеров.
Гибридные модели: Комбинация глубоких сетей для извлечения признаков и классических алгоритмов для конечной классификации. Также активно развиваются модели, объединяющие речевую информацию с другими модальностями (видео, физиологические сигналы) для повышения точности.

2.3. Проблема данных: корпуса и разметка

Ключевым вызовом для разработки надежных систем является создание репрезентативных и качественно размеченных речевых корпусов. Для авиационной сферы актуальны базы данных, содержащие:

Естественная речь в профессиональном контексте: Записи реальных или максимально приближенных к реальным радиообменам в штатных и нештатных ситуациях (тренажеры).
Индуцированные эмоции: Записи речи специалистов в условиях контролируемого лабораторного стресса (например, при выполнении сложных заданий с ограничением времени).
Актерское моделирование: Наименее предпочтительный, но более доступный метод, при котором профессиональные актеры или сами специалисты изображают заданные эмоции. Основной недостаток – возможная искусственность и упрощенность выражения.

Разметка (аннотация) данных является сложной и трудоемкой задачей. Она может осуществляться:

Экспертами-психологами на основе прослушивания и анализа контекста.
Самими говорящими (самоотчет).
Путем использования объективных показателей (например, уровень гормона кортизола, данные ЭКГ) как косвенных маркеров состояния.

Отсутствие открытых, крупных и качественно размеченных корпусов, специфичных для авиации, остается серьезным препятствием для быстрого прогресса в этой области.

3. Специфика применения в гражданской авиации: требования и ограничения

Внедрение систем голосового анализа в авиационной отрасли сопряжено с рядом уникальных требований и ограничений, которые необходимо учитывать на этапе проектирования.

3.1. Особенности профессиональной речевой коммуникации

Формализованность и стандартизация: Радиообмен в авиации подчиняется строгим правилам (Фразеология РТО ИКАО). Речь отличается краткостью, использованием стандартных фраз и кодов. Это, с одной стороны, упрощает сегментацию и снижает семантический шум, с другой – ограничивает естественное эмоциональное разнообразие, «спрятанное» в шаблонные конструкции.
Высокий уровень фонового шума: В кабине воздушного судна присутствует постоянный шум двигателей и систем, в диспетчерских центрах – гул оборудования. Система должна обладать высокой устойчивостью к шумам и эффективными алгоритмами шумоподавления, не искажающими ключевые речевые параметры.
Многоязычие и акценты: Международный характер гражданской авиации предполагает работу с носителями разных языков и акцентов. Алгоритмы должны быть либо адаптивными, либо построенными на универсальных, инвариантных к языку акустических признаках (просодия).

3.2. Этические, правовые и организационные аспекты

Конфиденциальность и приватность: Голосовая биометрическая информация является персональными данными. Необходима разработка четких регламентов сбора, хранения, обработки и доступа к этим данным в полном соответствии с законодательством (в РФ – ФЗ-152 «О персональных данных»).
Культура безопасности, а не контроля: Ключевой принцип внедрения – система должна восприниматься персоналом как инструмент помощи и поддержки, а не как средство тотального надзора и наказания. Цель – не фиксация «провинившихся», а раннее предупреждение опасных состояний и организация своевременной помощи (отдых, консультация психолога).
Интерпретация результатов: Автоматическая система не может и не должна ставить диагноз. Ее задача – генерировать «тревожные сигналы» или оценки вероятности определенного состояния для последующего анализа специалистом-человеком (врачом, психологом, руководителем полетов).

4. Концептуальная модель интеграции системы голосового мониторинга в практику

На основе проведенного анализа предлагается многоуровневая модель интеграции технологии в деятельность авиационного предприятия (авиакомпании, службы УВД).

Уровень 1: Персональный профиль и адаптация. На этапе первоначального обучения и регулярных тренировок на тренажере система формирует индивидуальный речевой профиль специалиста в различных состояниях (норма, утомление, стресс). Это позволяет в дальнейшем настраивать алгоритмы распознавания под конкретного человека, повышая точность.

Уровень 2: Оперативный мониторинг. В реальном рабочем процессе (рейс, дежурство) система в фоновом режиме анализирует голосовые коммуникации. При выявлении устойчивых паттернов, ассоциированных с высоким уровнем стресса, когнитивной перегрузки или острого утомления, генерируется предупреждение низкого приоритета для самого специалиста (например, тактичная рекомендация сделать перерыв) или для его напарника.

Уровень 3: Ситуационный анализ и поддержка принятия решений. В сложных или нештатных ситуациях система предоставляет руководителю полетов или старшему диспетчеру объективные данные об эмоциональном фоне в экипаже или на рабочем месте. Это может учитываться при принятии решений о необходимости усиления контроля, смены экипажа, предоставления дополнительных ресурсов.

Уровень 4: Аналитический и превентивный. Агрегированные и обезличенные данные за длительный период используются для:

Выявления системных проблем в организации труда (графики смен, пиковые нагрузки).
Оценки эффективности программ психологической поддержки и управления усталостью (FRMS).
Совершенствования программ профессионального отбора и подготовки.

Заключение

Идентификация эмоциональных состояний по голосу представляет собой научно обоснованное и технологически перспективное направление для укрепления системы безопасности в гражданской авиации. Преодоление «человеческого фактора» требует перехода к проактивным методам управления, основанным на объективной диагностике состояния ключевых операторов – пилотов и авиадиспетчеров. Речевой сигнал, как естественный и непрерывный источник информации, открывает для этого уникальные возможности.

Однако путь к практической реализации сопряжен с решением комплекса сложных задач: от совершенствования алгоритмов, устойчивых к шумам и адаптивных к индивидуальным особенностям, до выработки взвешенных этических и правовых рамок. Успех внедрения будет зависеть не только от технологической зрелости решений, но и от грамотного управления изменениями в организациях, формирования культуры, в которой технология воспринимается как партнер, а не надзиратель.

Проведенное исследование демонстрирует, что интеграция систем голосового мониторинга в контур управления безопасностью полетов (SMS) способна стать значимым шагом на пути к созданию более устойчивой, надежной и человеко-ориентированной системы воздушного транспорта. Дальнейшие исследования должны быть сосредоточены на создании специализированных авиационных речевых корпусов, разработке стандартов и пилотных проектах, позволяющих апробировать предложенные подходы в реальных условиях.

Список литературы:

Есин И.Б. К вопросу о возможности идентификации эмоций человека через голос. Режим доступа: htthttps://center-bereg.ru/l2640.html -3-6 с.
Алтунина И.Р. Социальная психология: Учебник. – М: Юрайт, 2015. – 7 c.
Роль личности в деятельности по обслуживанию воздушного движения : учеб. пособие / сост. В. А. Карнаухов. – Ульяновск : УВАУ ГА(И), 2012. – 9-12 с.
Эмоции и чувства: понятие, виды и функции. Режим доступа: https://studfile.net/preview/2956329/page:8.-22-23 c.
Анализ эмоций по голосу. Режим доcтупа: https://mydocx.ru/2-21891.html. -23-25с.
Комплексный психологический портрет личности. Цели и принципы построения. Уровни и компоненты психологического портрета личности. Режим доступа: https://studfile.net/preview/6265277/page:23/. -1-2c.
Анализ эмоций по голосу. Режим доступа: https://mydocx.ru/2-21891.html. -33-39c.
Киселёв В.В. Автоматическое определение эмоций по речи: Cтатья. -2012г.-42-46с.