МЕЖДУНАРОДНАЯ ЗАОЧНАЯ НАУЧНО-ПРАКТИЧЕСКАЯ КОНФЕРЕНЦИЯ «ЕСТЕСТВЕННЫЕ И МАТЕМАТИЧЕСКИЕ НАУКИ В СОВРЕМЕННОМ МИРЕ»

Статья опубликована в рамках: XLIII Международной научно-практической конференции «Естественные и математические науки в современном мире» (Россия, г. Новосибирск, 06 июня 2016 г.)

Наука: Информационные технологии

Секция: Математическое моделирование, численные методы и комплексы программ

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Заболотов В.А., Стефанова И.А. СЖАТИЕ АУДИОДАННЫХ НА ОСНОВЕ ПСИХОАКУСТИЧЕСКИХ СВОЙСТВ СЛУХА ЧЕЛОВЕКА // Естественные и математические науки в современном мире: сб. ст. по матер. XLIII междунар. науч.-практ. конф. № 6(41). – Новосибирск: СибАК, 2016. – С. 43-51.

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов

СЖАТИЕ АУДИОДАННЫХ НА ОСНОВЕ ПСИХОАКУСТИЧЕСКИХ СВОЙСТВ СЛУХА ЧЕЛОВЕКА

Заболотов Владимир Александрович

канд. техн. наук, доц. Поволжского государственного университета телекоммуникаций и информатики,

РФ, г. Самара

Стефанова Ирина Алексеевна

канд. техн. наук, доц. Поволжского государственного университета телекоммуникаций и информатики,

РФ, г. Самара

COMPRESSION OF AUDIO DATA ON THE BASIS OF PSYCHOACOUSTIC PROPERTIES OF HEARING

Vladimir Zabolotov

student of Volga Region State University of Telecommunications and Informatics,

Russia, Samara

Irina Stefanova

phD (Science), assistant professor of Volga Region State University of Telecommunications and Informatics,

Russia, Samara

АННОТАЦИЯ

В статье рассматривается авторская модель сжатия аудиосигналов на основе основных психоакустических свойств слуха человека.

ABSTRACT

In the article the authors offer the original model in which audio signals are compressed on the basis of psychoacoustic properties of hearing.

Ключевые слова: сжатие аудиоданных, модель, психоакустика.

Keywords: compression of audio data, model, psychoacoustics.

Важнейшие характеристики любой системы цифровой обработки звуковых сигналов в значительной мере определяются эффективностью системы сжатия. В настоящее время повышение эффективности сжатия связано с обработкой звуковых сигналов в частотной области, что позволяет учитывать психоакустические свойства слуха человека.

Различают статистическую и психоакустическую избыточность. Сокращение статистической избыточности основано на учете свойств самих звуковых сигналов (ЗС), а психоакустической – на учете особенностей слухового восприятия звука. Устранение статистической избыточности ЗС даже при достаточно сложных процедурах обработки позволяет в конечном итоге уменьшить изначально требуемую пропускную способность канала связи лишь на 15 … 40 % [2]. Такое сжатие не может обеспечить все возрастающие требования, причем не столько к количеству, как к качеству передаваемой информации. Поэтому в последнее время в нашей стране и за рубежом уделяется большое внимание [1; 2] вопросам развития новых методов сжатия ЗС, основанных на использовании психоакустических свойств слуха человека. При этом сжатие ЗС производится не во временной, а в частотной области, для чего используются дискретные ортогональные преобразования (ДОП).

Кодирование с использованием психоакустического восприятия подразумевает способ преобразования потока данных, при котором кодированию подвергается только та часть звуковой информации, которую способно воспринять ухо человека, остальные же составляющие исходного сигнала можно отбросить, за счет чего и достигается эффект сжатия.

Экспериментальные исследования субъективного восприятия звука выявили самые различные свойства слуха человека [5], основными из которых являются полосное возбуждение рецептора органа слуха и частотная избирательность. На основании этих свойств установлено допустимое отношение сигнал/шум квантования (60 дБ), которое в случае передачи узкополосных звуковых сигналов в широкополосных трактах может быть уменьшено до 30 дБ [2]. Уже эти результаты привели к существенному повышению эффективности сжатия ЗС. В настоящее время указанные свойства слуха положены в основу новых высокоэффективных цифровых технологий для радиовещания и телевидения – DAB (Digital Audio Broadcasting), DRM (Digital Radio Mondiale), DVB (Digital Video Broadcasting) и ATSC (DOLBY AC–3) [1].

Свойство полосного возбуждения заключается в том, что отдельный тон возбуждает определенную группу волосковых клеток [5]. При этом максимум возбуждения лежит в центре группы. Соответствие между частотой тона и шириной возбуждаемой им группы волосковых клеток привело к понятию частотной группы, центром которой является воздействующий тон.

Частотная избирательность заключается в маскировке (подавлении) тонов меньшей интенсивности тонами большей интенсивности, которые могут быть расположены и за пределами данной частотной группы. Это свойство отображается в виде так называемых кривых маскировки (рис. 1) [5].

Рисунок 1. Кривые порога слышимости тона Eкм при маскировке узкополосным шумом с различной средней частотой f [5]

В свою очередь, всю совокупность слышимых тонов можно отобразить с помощью плоскости слышимости. Схематично плоскость слышимости для здорового слуха показана на рис. 2 [5], где по оси ординат отложен уровень звукового давления E, а по оси абсцисс – частота f. Область слышимости ограничена снизу абсолютным порогом слышимости, отделяющим уровни слышимых звуков от неслышимых, а сверху – болевым порогом. Плоскость слышимости простирается примерно от 20 Гц до 20 кГц и от 0 до примерно 135 дБ. За нулевой уровень принято звуковое давление 2×10–5 Па.

Рисунок 2. Плоскость слышимости звуков для слуха человека

Учет абсолютного порога слышимости считается одним из достоинств систем сжатия ЗС. Из рис. 2 видно, что полоса значений абсолютного порога слышимости минимальна в области средних частот (точнее на частоте 3500 Гц), медленно расширяется в сторону низких частот и несколько быстрее в сторону высоких частот. Те частотные составляющие, которые попали ниже абсолютного порога слышимости (на рис. 2 – это 1, 3, 5 составляющие) не будут слышны, их кодировать и передавать не имеет смысла, а вот 2 и 4 составляющие находятся выше абсолютного порога слышимости и их надо кодировать и передавать. Анализируя спектральные составляющие ЗС, и, используя рассмотренные психоакустические свойства слуха, можно рассчитать границы маскировки спектральных составляющих и выбрать требуемое число разрядов для кодирования этих компонент [4].

Кроме того, ЗС можно квантовать с меньшим по уровню шагом с таким расчетом, чтобы искажения квантования, зависящие от уровня сигнала, маскировались бы исходным звуковым сигналом. При этом скорость цифрового потока на выходе кодера звукового сигнала определяется степенью округления отсчетов почти мгновенного спектра и эффективностью исключения избыточных спектральных составляющих.

Очевидно, что после устранения психоакустической избыточности точное восстановление формы временной функции звукового сигнала при декодировании оказывается уже невозможным. Поэтому сжатие с использованием психоакустических свойств слуха всегда сопровождается частичной потерей информации [4].

В современных цифровых технологиях для систем обработки и передачи ЗС самое широкое применение получили алгоритмы компрессии, реализованные в стандартах, выработанных международной экспертной группой MPEG (Moving Pictures Expert Group), и в стандарте ATSC (Advanced Television System Committee) Dolby AC-3 (А/52) [2].

В стандартах MPEG есть две психоакустических модели. Первая применяется для уровней компрессии Layer 1(студийная запись с высокой емкостью данных, скоростью 196–256 кбит/с и коэффициентом компрессии – 4) и Layer 2 (потребительская область применения, выcококачественное радиовещание со скоростью 128 кбит/с, коэффициентом компрессии – 6).

Вторая модель для уровня компрессии Layer 3(рекомендуется для передачи звуковых сигналов по сети ISDN в профессиональной области со средним качеством, Internet-вещания, она отличается высокой сложностью и характеризуется следующими параметрами: скорость цифрового потока 64 кбит/с в полосе звукового сигнала 40 Гц –15 кГц).

Каждая модель MPEG опирается на основные психоакустические свойства [2], но кривые маскировки, используемые ими, грубо аппроксимированы под кривые свойств слуха человека. К тому же формулы для получения таких кривых сложны и объемны, а точность аппроксимации кривых маскировки невысока.

Поэтому дальнейшее развитие высокоэффективных (высокопроизводительных при условии сохранения качества источника цифрового звука) кодеков ЗС сдерживается рядом нерешенных проблем, основными из которых являются:

Неэффективное использование основных психоакустических свойств слухового анализатора, что является следствием отсутствия их точного аналитического описания.
Построение психоакустических моделей на основе усредненных экспериментальных данных [5]. В результате высокое качество субъективного восприятия звука может быть обеспечено лишь для лиц с частотной чувствительностью слуха не выше средней (до 16 кГц).
Отсутствие единого мнения на степень округления (уменьшение разрядности кодирования) коэффициентов ДОП. Степень округления предлагается определять эмпирически, что обусловливает ее зависимость как от характера ЗС (речь или музыка), так и от характера отдельных их фрагментов.

От обоснованного решения перечисленных проблем зависят все важнейшие характеристики как существующих, так и новых высокоэффективных систем цифровой обработки и передачи аудиоданных.

Авторами работы была проведена точная аппроксимация [3; 4] экспериментально полученных [5] психоакустических свойств слуха. Аппроксимация проводилась в математическом пакете Matсadpro с применением регрессионного анализа. При этом были получить достаточно простые функции. Осталось разработать алгоритм прореживания спектра, при сохранении субъективно-высокого качества звука.

С целью оценки достоверности результатов аппроксимации и алгоритмов прореживания спектра ЗС требуется провести компьютерное моделирование соответствующих искажений с последующей оценкой потерь качества источника цифрового звука. Для этого необходимо разработать методики проведения соответствующих экспериментов и их программное обеспечение. При компьютерном моделировании нет необходимости в соответствующем дорогостоящем оборудовании. Наилучшим образом этой цели отвечает современная система MATLAB совместно с пакетом расширения Simulink. В системе MATLAB+Simukink была создана имитационная модель, реализующая процесс сжатие аудиоданных с учетом степени округления спектральных компонент. Модель приведена на рисунке 3.

Рисунок 3. Моделирование округления спектральных компонент

В модели использовались следующие блоки:

Блок From Multimedia File импортирует как аудио файлы, так и видео файлы из файловой системы Windows в модель Simulink. И последовательно считывает выборки цифровых аудиоданных длиной N.

Над каждой выборкой временных отсчетов блок FFT выполняет прямое дискретное преобразование Фурье (ДПФ). Для реализации ДПФ используется стандартный блок FFT (Fast Fourier Transform), который служит для перехода из временной области в частотную область, а обратный переход осуществляется с помощью блока IFFT. Переход из одной области в другую осуществляется с помощью преобразования Фурье. В модели для убыстрения процесса вычисления используется быстрое преобразование Фурье (ПБФ). На его выходе формируется массив из N коэффициентов преобразования в виде комплексных чисел типа a_n+ib_n.

Блок Complexto Magnitude – Angle выделяет и вычисляет для каждого коэффициента ДПФ модуль и фазу (аргумент) комплексного числа. Поскольку округление фазы в данной работе не рассматривается, она непосредственно подается на соответствующий вход блока Magnitude-Angle to Complex, формирующего комплексную величину.

Блок IFFT выполнят обратное ДПФ. Однако на его выходе остается нулевая мнимая часть,для устранения которой используется блок ComplextoReal-Image.

Выходной блок ToMultimediaFile накапливает полученные временные выборки в виде звукового *.wav файла, который в дальнейшем воспроизводится звуковой платой ЭВМ и преобразует обработанный сигнал в готовый мультимедиа файл (видеофайл или звуковой файл).

Блок InterpretedMATLABFcn – это функциональный блок MATLAB. Он ссылается на М – файл, в котором запрограммировананужная для исследованияфункция,например, округления спектральных компонент. Этот блок позволяет использовать М – файл, написанный на языке программирования MATLAB для реализации поставленной задачи исследования.

Таким образом, с помощью этой модели можно осуществить компрессию звукового файла с использованием различных параметров сжатия ЗС. Модель является обобщенной и, изменяя алгоритм работы блока Interpreted MATL ABFcn, можно исследовать искажения, вызванные методами психоакустичнского сжатия.

Для оценки качества методов сжатия цифровых аудиоданных была проведена субъективно-статистическая оценка и эксперимент. В процессе испытания, согласно рекомендациям МККР, привлекались слушатели как с натренированным слухом (музыканты, звукорежиссеры), так и обычные слушатели без патологии слуха. При этом группа экспертов оценивала качество передачи по заданной шкале оценок. Затем индивидуальные результаты экспертов подвергаются статистической обработке для получения усредненной оценки.

Градации оценки ухудшения качества звучания составляют пятибалльную шкалу:

0 незаметное;

1 заметное, но не раздражающее;
2 слегка раздражающее;
3 раздражающее;
4 очень раздражающее.

В качестве тестовых фрагментов использовались монофоническая запись голоса диктора на Английском языке и стереофоническая запись музыкальной фразы, исполненной на гобое.

Судя по субъективным оценкам эксперимента сжатые файлы, полученные в результате моделирования округления спектральных компонент, получали оценки 0 (искажения незаметны) и – 1 (заметны, но не раздражают). При этом обеспечивалось 15-ти процентное сжатие звуковых сигналов. Эффективность сжатия также менялась в зависимости от формата данных. Было установлено, что:

Для кодирования модуля спектральных компонент звуковых сигналов без ухудшения качества источника цифрового звука достаточно двух двоичных разрядов.
В случае речевых сигналов и учета только разборчивости речи может быть приемлемым кодирование модуля спектральных компонент одним двоичным разрядом.

Список литературы:

Ильин А.Г., Казанцев Г.Д., Костевич А.Г., Курячий М.И., Пустынский И.Н., Шалимов В.А. «Цифровое телевидение в видеоинформационных системах» часть 2: – [Электронный ресурс]: URLhttp://tu.tusur.ru/upload/posobia/i5.2.pdf (Дата обращения: 05.11.2015).
Ковалгин Ю.А. «Цифровое кодирование звуковых сигналов» [Текст] // Ю.А. Ковалгин, Э.И. Вологдин. СПб.: КОРОНА-принт, 2004. – 240 с.
Павлов К.В., Стефанова И.А. Аппроксимация кривых порогов слышимости. XVI МНТК, том № 1 «Проблемы техники и технологии телекоммуникаций»: сб. докладов г. Уфа, ноябрь, 2015. – С. 112–114.
Павлов К.В., Стефанова И.А. Моделирование свойств слухового анализатора. Журнал «Символ науки» № 11 часть 1, 2015, С 58–62.
Цвикер Э., Фельдкеллер Р., Ухо как приемник информации [Текст] // пер. с немец. под ред. Б.Г. Белкина «Связь» 1971 г., 255 с.

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов