Статья опубликована в рамках: Научного журнала «Студенческий» № 20(148)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6, скачать журнал часть 7

Библиографическое описание:

Эбикеева М.Т. МЕТОДЫ ОЦЕНКИ КАЧЕСТВА РЕЧЕВОГО СООБЩЕНИЯ // Студенческий: электрон. научн. журн. 2021. № 20(148). URL: https://sibac.info/journal/student/148/215543 (дата обращения: 08.08.2025).

МЕТОДЫ ОЦЕНКИ КАЧЕСТВА РЕЧЕВОГО СООБЩЕНИЯ

Эбикеева Мадина Толгатовна

магистрант, Международный Университет Информационных Технологий,

Казахстан, г. Алматы

Бахтиярова Елена Ажибековна

научный руководитель,

канд. техн. наук, ассистент-профессор, кафедра Радиотехника, электроника и телекоммуникации, Международный Университет Информационных Технологий,

Казахстан, г. Алматы

АННОТАЦИЯ

В данной статье представлен обзор существующих методик и техник для оценки качества речи. Дается краткое изложение часто используемых тестов как прослушивания, так и оценивания качества обработанной речи слушателей и людей. Из существующих двух видов оценивания, субъективное может считаться стандартом оценивания с точки зрения качества речи, но такое оценивование затратное и трудоемкое. В связи с чем, большое количество исследовательский работ были направлены на создание объективных методов оценки, которые будут коррелировать с субъективными показателями оценки качества речи. При изучении объективных методов, которые популярны в использовании, был произведен обзор техник для работы совместно с субъективными методами.

При исследовании методов оценки качества речи, и исследовании готовых реализаций для практики студентов было выявлено, что одним из простых и надежных во всех коэффициентах и корреляциях методом является – соотношение сигнал/шум. Практическая часть исследования была произведена данным методом на общедоступной программе SNR от PhViewer 2.0.

В результате исследования было выдано значение SNR – отношение сигнал/шум по амплитуде речи, записанного на диктафон на казахском языке.

ABSTRACT

The article provides an overview of existing techniques and techniques for assessing speech quality. A summary of the frequently used tests of both listening and evaluating the quality of processed speech of listeners and people is given. Of the two existing types of assessment, subjective can be considered the standard of assessment in terms of speech quality, but such assessment is costly and time consuming. In this connection, a large number of research works have been aimed at creating objective assessment methods that will correlate with subjective indicators of speech quality assessment. In exploring the objective methods that are popular in use, a review was made of techniques for working in conjunction with subjective methods.

In the study of methods for assessing the quality of speech, and the study of ready-made implementations for the practice of students, it was revealed that one of the simple and reliable method in all coefficients and correlations is the signal-to-noise ratio. The practical part of the research was carried out by this method on the publicly available SNR program from PhViewer 2.0.

As a result of the study, the SNR value was given - the signal-to-noise ratio by the amplitude of speech recorded on a dictaphone in Kazakh.

Ключевые слова: оценка качества речи, акустический сигнал, электрический сигнал, субъективный метод, объективный метод, корреляция.

Key words: speech quality assessment, acoustic signal, electrical signal, subjective method, objective method, correlation.

Введение. Большинство речевых сигналов - это нестационарные процессы с множеством компонентов, которые могут изменяться во времени и по частоте. Но до преобразования речевого акустического сигнала в электрический сигнал необходимо рассмотреть его первичное исполнение. Само речевое сообщение создается человеком, а если быть точнее мозг человека является источником сообщения. Далее данная речь через речеобразующий тракт исполняется и преобразуется уже в речевой сигнал. При исполнении речевого сигнала вышеназванным трактом меняется высота голоса, громкость, а если говорить техническим языком меняется частота и амплитуда акустического сигнала. При изучении акустического сигнала, созданного ребенком или взрослым человеком, и даже при различии пола всегда находят место отличительные черты. Это связано с особенностями речеобразующего тракта. При передаче данного акустического сигнала через телекоммуникационные системы акустический сигнал преобразуется в электрический.

В ходе прохождения телекоммуникационных систем электрический сигнал подвергается ряду преобразований. Какое именно преобразование определяет сама телекоммуникационная система и вид передачи сообщения. Базовые преобразования, входящие в вышеперечисленные системы это модуляция, демодуляция, квантование, декодирование, кодирование, компандирование. Даже при прохождении данных процессов сигнал остается электрическим. При разговоре речевой сигнал до попадания в систему передачи сильно искажается и уровень зачастую снижается. В целях лучшего восприятия каждая телекоммуникационная система, перед преобразованием речевого сигнала, пытается увеличить уровень сигнала. Такие же действия производит и приемник перед обратным преобразованием, то есть увеличивает уровень сигнала. После вышесказанной процедуры, в зависимости от типа приемника сообщения, сигнал преобразуется в акустический, либо остается в цифровом виде. Сигнал, принятый на приемной стороне, может отличаться, это зависит от искажений которому подвергся сигнал.

Частота звуковой волны, которая может восприниматься человеком от 20 Гц до 22 кГц. Мощность также отличается. По проведенным ранее экспериментам известно, что 1 мкВт это мощность очень слабого сигнала.

На рисунке ниже можно увидеть шкалу громкости [1], в котором 10⁻⁵ Па это давление которое принято за нулевой уровень. В этой шкале за значение по оси берется обозначение dB SPL, расшифровка которого Sound Pressure Level – Уровень звукового давления.

Рисунок 1. Шкала громкости

Как ранее говорилось, конфигурация речевого сигнала зависит напрямую от интонации, тембра голоса, возраста говорящего и пола. Но несмотря на такое отличие частотный диапазон, то есть ширина полосы частот имеет значение диапазона в промежутке от 100 до 8000 Гц. Однако в рекомендациях Международного консультационного комитета по телефонии и телеграфии (МКТТ) принят диапазон частот в промежутке 300-3400 Гц [2]. Это используется для обработки и преобразования речевого сигнала.

Методы оценки качества речи. Существует два метода оценки качества речи, это субъективная и объективная оценка. Методы проведения оценки различны со стороны как проведения самого исследования, так и методов оценки. В основу субъективных методов оценки входит сравнение исходного сигнала и обработанного телекоммуникационной системой сигнала слушателем. Сравнение отображается в таблице, которая заполняется также слушателем по ранее заданной шкале сравнения. Объективная оценка предполагает сравнение исходного сигнала и обработанного сигнала методом математической модели сравнения. Математическая модель сравнения базируется на измерении численного «расстояния» между двумя сигналами. Но объективная оценка не точная и не надежная, по сравнению с субъективным методом. Поэтому специалисты в области телекоммуникационных технологий стараются моделировать методов, который будет гибридом двух методов оценки качества. Такие исследования проводятся путем использования объективных показателей, коррелирующих с различными аспектами слуховой системы.

Мы рассмотрим основные три метода для оценки качества речи. Это самые часто используемые субъективный и объективный, также комплекс последних двух психоакустический.

Субъективные методы. Чаще всего для оценки через субъективный метод используются испытания, называемые субъективно-статистические (ССИ).

Один из популярных и распространенных субъективных методов для оценки качества речи, это сравнение начального речевого сигнала и преобразованного системой передачи на выходе слушателем, оценка с помощью таблицы. Таблица выполнена в виде пятибалльной числовой шкалы (таблица 1).

В данной таблице 5 означает «отличное» качество, а 1 означает «неудовлетворительное» или «плохое» качество. Итоговая оценка (балл) качества высчитывается путем усреднения всех значений, полученные от всех слушателей. Такой средний балл называется Средняя оценка мнения (MOS) [2].

Данный вид оценки одобрен Подкомитетом IEEE по субъективным методам, а также отображен в Рекомендации P.800 МСЭ-Т.

Субъективно-статистические испытания (ССИ) такого вида выполняются в два этапа, это обучение и оценка. Этап обучения очень важен, его также называют «фаза закрепления», так как на этом этапе слушатели слышат комплекс сигналов. Сигналы, которые демонстрируют разно качество речи – высокое качество, среднее и низкое качество. Именно от этапа обучения будет зависеть оценка, поскольку здесь идет закрепление сложившегося мнения. Этап оценки заключается в повторном прослушивании тестового сигнала и оценке качества сигнала по пятибалльной шкале (таблица 1) [2].

Таблица 1

Оценки MOS

Субъективное оценивание слушателем качества звучания речи	Восприятие слушателем речевой информации	Оценка
Очень плохо	Речь не воспринимается слушателем полностью или частично	1
Плохо	Речь воспринимается слушателем с вниманием	2
Удовлетворительно	Речь воспринимается слушателем с небольшими усилиями, в восприятии	3
Хорошо	Речь воспринимается слушателем свободно, без ощутимых усилий	4
Отлично	Речь воспринимается слушателем полностью и без усилий	5

Значения MOS зависят от шумов, искажений, понимания и знания языка и других параметров. Еще один метод, использующийся в ССИ это тест DAM (Diagnostic Acceptability Measure) – Диагностический метод приемлимости. Данный метод актуален для исследования качества работы самого телекоммуникационного оборудования, так как в отличии от MOS, DAM использует методы для оценки шумов, искажения. Процесс оценки также состоит из двух этапов, это прослушивание и уже сама оценка. При прослушивании также как и в MOS слушатели слышат исходный сигнал и искаженный. Оценка отличается. Оценка производится тремя разными шкалами, это параметрические, метаметрический и изометрический. Таким образом три шкалы в сумме получаем 16 измерений. Параметрическая шкала представляет собой точные измерения сигнала и измерение фоновых искажений. Метаметрическая и изометрическая шкалы обеспечивают общепринятое категориальное суждение. Качество оценивается по отношению «приятности», «разборчивости» и «приемлемости».

Увеличение числа и эффективности использования каналов для передачи речевого сообщения имеет большую перспективу, так как в телекоммуникационных сетях в настоящее время идет большой рост речевого трафика национальных языков, увеличивается сфера применения речевых услуг [3].

Объективные методы. В сравнении с объективными методами, субъективные методы более точные и надежные, но поскольку они очень трудоемкие и требуют достаточного времени и ресурсов ученые создали объективные методы. В таких методах в целях быстрой оценки используются готовые математические модели.

Степень надежности объективного метода можно оценить по его сравнению с субъективным методом. Разница должна быть минимальной.

Отношение сигнал / шум (SNR). Состоит из соотношения между силой полезной информацией или сигнала и силой шума или нежелательного сигнала. Отношение сигнал/шум является самым распространенным методов и самым простым для оценки качества. Одна из причин погрешностей может быть интенсивность сигнала. Чотбы избежать погрешность используется расширенный тип отношения сигнал/шум - отношение сегментов сигнал/шум (segSNR). То есть сигнал делится на отдельные временные интервалы, а отношение измеряется на каждом интервале времени [4]. Например, от 15 до 20 мс.

Метод оценки качества на основе линейного прогнозирования. Метод выполняется следующим образом, сигнала разделяется на отдельные моменты с определенным временем, и эти интервалы отображаются в виде модельного фильтра, состоящего из одного полюса. Это и называется измерение расстояния коэффициентов линейного предсказания в отдельные временные интервалы исходного сигнала и искаженного. Наиболее часто применимыми являются такие показатели как шкала Итакуро-Сайто и логарифмический коэффициент правдоподобия.

Для оценки и анализа закодированного сообщения данных метод, как и другие существующие очень важен.

В связи с высокой точностью субъективно-статистических тестов пытаются сделать комплекс или микс субъективно-статистического теста субъективного метода и математическую модель объективного метода. Поэтому большинство методик совершаются с помощью сравнения исходного и кодированного сообщения с психоакустической моделью. В этой модели оценка выполняктся с помощью сравнения степени сглаживания имеющего искажения в психоакустической модели.

То есть такой подход помогает моделировать звуковой сигнал в тот вид как принимается человек и сравнивается с исходным сигналом [5].

Объективные методы хороши в плане легко реализуемости и оценке. Но в силу специфичности реальной слуховой периферии человека, объективные методы очень ограничены в реализации субъективных качеств обработки речевого сообщения. Поэтому ведутся много исследований в стороны нахождения точной модели и измерения для воспроизведения нормальной частоты слуха и применяемой.

Показатель искажения спектра барков. Частотный анализ не основывается на линейной частотной шкале. Так как в данном методе частотное разрешение выступает как неоднородное. Моделирование проходит с помощью прохождения сигнала через полосовые фильтры. В фильтрах в таком случае центральная частота и полоса пропускания увеличены [6]. Такой интервал в фильтре в психоакустической терминалогии обычно называют соответствующим частотным диапазоном, или интервал между критическими областями и полосовыми фильтрами.

С нелинейной интенсивностью сигнала также связана и громкость. При этом стоит учитывать зависимость принимаемого объема от частоты сигнала.

Для расчета показателя искажения спектра барков BCD – Bark Spectral Distortion [6]:

(1)

где X (f_n, g) и Y (f_n, g) —g-ая критическая полоса спектра начального и декодированного речевого сообщения;

N _b_,_g — это количество отсчетов в g-ой критической полосе, в этом случае G=18, это количество критических полос, для сигнала в диапазоне частот 300 — 3400 Гц [6].

Оценка качества перцептивной речи (PESQ). Многие объективные показатели не учитывают искажения, которые возникают при прохождении через телекоммуникационные сети. Они были разработаны только для ограниченного диапазона искажений. Объективные способы получения погрешных прогнозов это потеря пакетов, задержки при передаче данных, плохое качество кодека и т.д. В новой Рекомендации МСЭ-T P.862 восприятие качества речи (PESQ) указан в числе одобренных методов, вместо старой P. 861 [2]. Также в качестве алгоритма оценки был предложен метод перцептивного качества речи (PSQM).

Отличительная черта метода PSQM был в ограничении высокобитовыми речевыми кодеками, которые работают по безошибочным каналам. Структура измерения PESQ показана на рисунке 2 [7].

Подробная схема алгоритма PESQ

Рисунок 2. Процесс обработки сигналов в PESQ

Следующий этап расчета PESQ использует разницу между искаженным и исходным объемным спектром в качестве меры звуковой погрешности. Отличие PESQ от других объективных методов в том, что разница между положительным и отрицательным объемом выходит одинаковой, это происходит через возведения в квадрат. В то время как индекс PESQ объясняет такие различия по-разному. Добавление шумоподобного компонента в спектр отображается в положительной разнице, а отброс спектрального компонента или его сильное восстановление, это уже отрицательная разница. Таким образом, положительные и отрицательные величины разницы влияют на получаемое качество по-разному. При передаче сообщения часть данных может теряться, искажаться и т.д., в этом случае маскирующие эффекты сильнее поглощаются и приводят к неприятному типу искажения, нежели очищение сигнала от дополнительных компонентов, такие как шумы. В этой связи к положительным и отрицательным показателям применяются разные значения.

Различия, которые называются возмущениями, между спектрами громкости усредняется и вычисляется по частоте и времени. Это происходит для прогнозирования субъективной оценки MOS.

Заключительная оценка PESQ [7] рассчитывается как линейная комбинация среднего значения возмущения и среднего несимметричного возмущения значение следующим образом:

(2)

где , и .

Данный метод обычно используется при существовании ошибок в канале передачи, то есть это потери пакетов, задержки на канале и т.д., с целью прогнозирования субъективного качества речи кодеков (кодеров типа waveform и CELP).

При исследовании качества передачи телефона, метод PESQ не может обеспечить всесторонней оценки, так как метод применим только для односторонней речи или шума, который получает слушатель на приемной стороне. Потеря громкости, эхо динамиков и боковой шум не видны в рейтингах PISA. Приведенные выше методы оценки речи были изучены и изучены в связи с субъективными методами. Результаты корреляции приведены в таблице 2 [7]. В результате этого исследования для каждого алгоритма были определены три основных коэффициента корреляции: общий коэффициент качества, коэффициент искажения сигнала и коэффициент фоновых искажений.

Таблица 2

Результаты корреляции

Объективный метод	Общий коэффициент качества	Коэффициент искажения сигнала	Коэффициент искажения фона
Сегментное соотношение сигнал/шум	0.36	0.22	0.56
На основе линейного предсказания	0.79	0.84	0.41
PESQ	0.89	0.81	0.76
Логарифмическое отношение правдоподобия (log-likelihood ratio, LLR)	0.85	0.88	0.51
Итакуро-Саито	0.60	0.73	0.09

По данным из таблицы видно, что наиболее высокий коэффициента корреляции имеет метод PESQ. Но стоит отметить, что программная реализация данного метода является трудоемким. При исследовании данных методов оценки качества речи, и исследовании готовых реализаций для практики студентов было выявлено, что одним из простых и надежных во всех коэффициентах и корреляциях методом является – соотношение сигнал/шум. Практическая часть исследования была произведена данным методом на общедоступной программе SNR от PhViewer 2.0.

Программа предназначена для цифровой обработки и анализа радиосигналов. Интерфейс программы является очень простым в использовании для студента. Попробуем измерить SNR на реальном сигнале, записанном на диктафон телефона. Нашим подопытным будет запись слова на казахском языке «Ғылым» длительностью 2 с. Измерение отношения сигнал / шум неразрывно связано с полосой сигнала. Ниже на рисунке 1 приведен исходный сигнал вместе с шумом, притутсвующий в начале произношения и в конце.

Рисунок 3. Исходный сигнал

На панели выбираем участок с сигналом и участок шума, задаем полосу, где мы будем считать шум, после чего программа автоматически выдает нам значение SNR – отношение сигнал/шум по амплитуде.

Рисунок 4. Результат измерения соотношения сигнал/шум

Выводы. В этой статье представлен обзор различных методов и процедур, которые использовались для оценки качества обработанной речи, описаны субъективные методы для оценки качества речи. Также описан основной метод ССИ указанный в стандарте МСЭ-T P.835, установленный для оценки качества речи, обработанной алгоритмами шумоподавления. Было дано описание общих объективных показателей качества. Влючены сегментные измерения SNR, измерения спектрального расстояния на основе LPC (например, мера Итакура-Сайто) и методы, мотивированные восприятием (например, искажение барков, метод PESQ). Показатель SNR, который часто используется для оценки качества речи, хорошо коррелирует с субъективным методом оценки качества речи, также легко применим как в исследованиях, так и в обучающей программе для студентов.

Список литературы:

И. В. Савельев. Курс общей физики, Механика, колебания и волны, молекулярная физика, том 1. М.: Наука, 1970 – с. 295.
МСЭ-Т, Перцепционная оценка качества речи (PESQ) и объективный метод сквозного оценка качества речи узкополосных телефонных сетей и речевых кодеков. Рекомендация МСЭ-T. 2000 – с. 862.
Бахтиярова Е.А.: дис. Вероятностные характеристики сообщения устной казахской речи. Диссертация на соискание ученой степени кандидата технических наук. Москва. 2007 – с. 97.
Бахтиярова Е.А. Плотности распределения вероятностей речевого сообщения на казахском языке. Сборник научных докладов IV Всероссийской Недели студенческой науки в РГСУ, от 16-22 апреля 2007 г. М.: Издательство РГСУ «Союз», ИПК Управление делами президента РФ «Известие», том 1, 2007. - с.17-18.
Бахтиярова Е.А., Липская М.А., Кемельбеков Б.Ж., Чигамбаев Т.О., Бекмагамбетова Ж.М., Оспанова Н.А., Оразымбетова А.К., Хан В.А., Мекебаева А.К., Мамилов Б.Е. Качество воспроизведения речи в стохастических цифровых системах передачи информации при ее статистическом уплотнении. Известия высших учебных заведений. –2017 – с. 165.
Басов О.О., Илюшин М.В., Степанов А.В., Радаев А.В. Обоснование объективного критерия качества звучания синтезированного широкополосного речевого сигнала. –2010 – с. 5-6.
Рикс, А., Холлиер, М.: Измерение перцептивного анализа для надежного сквозного оценка качества речи. В: Proc. IEEE Int. Конф. Акуст., Речь, Обработка сигналов, т. 3. 2000 - с. 1515–1518.

МЕТОДЫ ОЦЕНКИ КАЧЕСТВА РЕЧЕВОГО СООБЩЕНИЯ

Оставить комментарий