Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: XL Международной научно-практической конференции «Экспериментальные и теоретические исследования в современной науке» (Россия, г. Новосибирск, 29 мая 2019 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Есин М.К. МЕТОД СТЕГОАНАЛИЗА АУДИОФАЙЛОВ, БАЗИРУЮЩИЙСЯ НА АЛГОРИТМАХ СЖАТИЯ // Экспериментальные и теоретические исследования в современной науке: сб. ст. по матер. XL междунар. науч.-практ. конф. № 10(37). – Новосибирск: СибАК, 2019. – С. 5-11.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

МЕТОД СТЕГОАНАЛИЗА АУДИОФАЙЛОВ, БАЗИРУЮЩИЙСЯ НА АЛГОРИТМАХ СЖАТИЯ

Есин Михаил Константинович

магистрант Сибирского государственного университета телекоммуникаций и информатики,

РФ, г. Новосибирск

1. Введение

Одним из сценариев отправки секретного сообщения по открытому каналу связи является пересылка файла, в который незаметно добавлено секретное сообщение. Рассмотрим пример: пусть Алиса и Боб пересылают друг другу секретное сообщение по открытому каналу, а Ева пытается это сообщение перехватить. Алиса берет файл, например аудиозапись известного исполнителя, и скрывает в нем секретное сообщение так, что файл сохраняет свой размер и в принципе ничем не отличается от исходного файла. Боб в свою очередь получает файл и извлекает из него секретное сообщение. Ева же, прослушивая открытый канал связи и не зная о факте передачи информации, видит обычный файл. В этом и заключается задача стеганографии.  

Как было сказано выше, при помощи стеганографического алгоритма секретное сообщение встраивается в файл, или контейнер, так, чтобы не было заметных изменений этого файла. Затем контейнер пересылается по открытому каналу связи, не вызывая подозрений. Секретное сообщение декодируется получателем из контейнера специальным алгоритмом. Как правило, контейнерами служат файлы с большой избыточностью, зачастую это изображения, аудиофайлы и видеофайлы. В таких файлах незначительное изменение потока данных физически незаметно для обычного человека. Например, имеется аудиофайл формата WAVE, в котором в качестве данных хранятся амплитуды звукового сигнала с достаточно большой частотой дискретизации (от 8 до 44кГц). Каждое значение амплитуды в таком файле представлено в виде 32-битного целого числа, т.е. каждое значение амплитуды может иметь около 1 млрд различных значений. Таким образом, например, ухо обычного человека не сможет отличить значение амплитуды звука 1000 от 1001. Этот факт может быть использован в стеганографическом алгоритме. Мы берем младшие биты значений амплитуды и зашифровываем в них наше секретное сообщение. При этом размер файла остается неизменным, а изменения потока данных незаметны.  Такой метод сокрытия данных называется LSB (Last Significant Bit).

На сегодняшний день существует множество модификаций метода LSB [1, 2, 3], которые используют в качестве контейнеров аудиофайлы, видеофайлы, изображения и исполняемые файлы.

Наравне с задачей стеганографии существует противоположный процесс – стегоанализ. Под стегоанализом понимается выявление факта передачи данных в контейнере. Стоит уточнить, что основной целью стегоанализа не является получение скрытого сообщения, а только лишь выявление факта его передачи.

Целью данной работы является построение алгоритма стегоанализа аудиоданных формата WAVE. Разработанный алгоритм базируется на применении методов универсального кодирования, которые используются для сжатия данных. Этот подход был предложен Б. Я. Рябко и был успешно реализован в ряде работ [1, 2, 4]. Основная его идея заключается в том, что после внедрения сообщения в контейнер изменяется его статистическая структура, вследствие чего повышается его энтропия, поэтому заполненный контейнер будет сжиматься хуже, чем пустой.

Был построен универсальный, т.е. рассчитанный на обнаружение данных, встраиваемых разными методами, алгоритм стегоанализа аудиоданных формата WAVE. Информация в контейнеры внедрялась при помощи самостоятельно реализованной программы. В ходе проведенных испытаний была выявлена зависимость в изменении степени сжатия заполненного контейнера при различных степенях заполненности контейнера (от 0 до 100%).

2. Описание метода стегоанализа

Идея предлагаемого метода заключается в том, что файл изначально имеет определенную статистическую структуру. Если использовать его в качестве контейнера для секретного сообщения, то после внедрения изменится статистическая структура контейнера и повысится его энтропия. Таким образом, при использовании алгоритмов сжатия пустой контейнер, как правило, сжимается лучше, чем заполненный. Значит, если при изменении степени сжатия выше определенного значения можно сказать, что контейнер содержит скрытую информацию. Но тут перед нами встает самая главная проблема – мы изначально не знаем – заполнен контейнер или нет и насколько он заполнен. Предложенный в этой работе метод позволяет решить эту проблему.

Основной принцип метода заключается в сравнении изменения степеней сжатия файла после заполнения определенной части контейнера псевдослучайной последовательностью данных. Если степень сжатия после заполнения оказалась больше изначально выбранного значения, то можно сказать, что файл был изначально пуст. Если же наблюдается обратная ситуация, т.е. изменение степени сжатия не превысило определенного значения, то можно сказать, что в файле содержалась скрытая информация.

3. Экспериментальные исследования и результаты

В ходе экспериментальных исследований были взяты 1000 файлов формата WAVE PCM. Звуковые файлы имеют одинаковый размер и параметры: частота дискретизации 44кГц, 32 бит на отсчет, 2 канала (стерео). Эти файлы использовались в качестве контейнеров для программы, в которой реализовано сокрытие данных с помощью двух видов алгоритма LSB – LSBR и LSBM. В алгоритме LSBR (LSB-Replacement) последние биты данных контейнера заменяются битами сообщения. В алгоритме LSBM (LSB-Matching) к последнему биту контейнера применяются следующие правила – если бит контейнера равен биту сообщения, то бит не изменяется, если наоборот – бит контейнера не равен биту сообщения, то бит контейнера равновероятно увеличивается или уменьшается. Очевидно, что метод LSBM будет вносить меньше искажений в статистику файла, по сравнению с методом LSBR.

Эксперимент проводился в два этапа. На первом этапе каждый исходный пустой контейнер был заполнен псевдослучайными данными двумя выше описанными алгоритмами с различной степенью их наполнения – от 5% до 100% с шагом 5%. После этого каждый полученный контейнер был сжат двумя разными архиваторами – 7ZIP и BZIP2. На данном этапе метод основывался на правиле - если разность степеней сжатия исходного и заполненного файлов больше определенного значения, то исходный файл пустой. Ниже на рис.3 и таблице 1 приведены результаты первого этапа эксперимента.

Таблица 1.

Количество файлов, определенных как пустые в ходе первого этапа эксперимента

% Внедрения

Этап 1

7ZIP

BZIP2

LSBR

LSBM

LSBR

LSBM

5

240

268

594

551

10

266

267

571

601

15

264

264

618

612

20

284

301

602

633

25

300

296

629

630

30

321

319

630

642

35

329

342

643

647

40

327

301

617

649

45

344

372

664

667

50

347

359

632

651

55

358

355

642

658

60

364

385

660

698

65

355

377

679

653

70

372

395

694

663

75

370

385

668

667

80

386

398

668

699

85

390

404

664

677

90

376

401

666

692

95

403

424

686

718

100

425

398

700

689

 

Рисунок 3. Результаты первого этапа эксперимента. На графике показана зависимость количества выявленных файлов от процента внедрения

 

В результате первого этапа видно, что при использовании архи­ватора BZIP2 метод обнаруживает примерно на 40 % больше файлов, чем при использовании архиватора 7ZIP. Это объясняется тем, что в архиваторе BZIP2 используется метод Берроуза-Уиллера, который позволяет более качественно сжать данные. Наравне с лучшим уровнем сжатия, алгоритм более восприимчив к изменению статистики в файле. В итоге, при изменении контейнера степень сжатия архиватором BZIP2 изменится сильнее по сравнению с 7ZIP.

Второй этап эксперимента заключался в заполнении уже запол­ненных контейнеров. Полученные в ходе первого этапа контейнеры были повторно заполнены псевдослучайными данными и сжаты двумя разными архиваторами – 7ZIP и BZIP2. На данном этапе метод основывался на правиле - если разность степеней сжатия исходного и полученного файлов меньше определенного значения, то исходный файл содержал скрытые данные. На рис. 4 и в таблице 2 приведены результаты второго этапа эксперимента.

Таблица 2.

Количество файлов, определенных как заполненные в ходе второго этапа эксперимента

% Внедрения

Этап 2

7ZIP

BZIP2

LSBR

LSBM

LSBR

LSBM

5

610

593

706

672

10

548

528

687

677

15

557

493

660

645

20

479

490

666

649

25

494

494

654

635

30

477

448

620

621

35

456

423

629

611

40

441

429

622

629

45

424

420

590

584

50

428

431

598

601

55

422

388

569

592

60

403

402

581

568

65

372

354

588

574

70

383

367

589

579

75

393

368

590

557

80

375

309

592

564

85

377

352

578

577

90

333

340

574

542

95

353

317

553

545

100

363

331

579

568

 

Рисунок 4 Результаты второго этапа эксперимента. На графике показана зависимость количества выявленных файлов от процента внедрения

 

В результате второго этапа эксперимента видно, что архиватор BZIP2 также лучше выявляет заполненные файлы по сравнению с 7ZIP. Ключевую роль здесь играет то, что при повторном внедрении данных в контейнер статистика файла изменяется, но при этом энтропия и степень сжатия контейнера существенно не меняются. Это позволяет сказать, что файл изначально уже содержал скрытое сообщение.

4. Заключение

В ходе работы был предложен метод стегоанализа, позволяющий эффективно определять факт присутствия или отсутствия скрытого сообщения в контейнере, внедренного методами LSB. Данный алгоритм может быть усовершенствован путем использования более сложных схем вычисления степени сжатия контейнера. Одна из таких схем была предложена в работе [5]. Ключевым отличием предложенного метода от существующих является отсутствие потребности информации об исходном контейнере (заполнен или нет).

 

Список литературы:

  1. Елтышева Е.Ю., Фионов А.Н. Построение стегосистемы на базе растровых изображений с учѐтом статистики младших бит // Вестник СибГУТИ. 2009. № 1. С. 67‑84.
  2. Нечта И.В. Стеганография в файлах формата Portable Executable // Вестник СибГУТИ. 2009. № 1. С. 85‑89.
  3. [Электронный ресурс]. Freeware program of steganography bmp, wav, voc. URL: http://www.heinz-repp.onlinehome.de/Hide4PGP.htm. (Дата обращения: 13.05.2019).
  4. Жилкин М.Ю. Стегоанализ графических данных на основе методов сжатия // Вестник СибГУТИ. 2008. № 2. С. 62‑66.
  5. Очимов С.Ю. Стегоанализ аудиофайлов, базирующийся на алгоритмах сжатия // Вестник СибГУТИ. 2010. № 1. С. 33‑40.
  6. Кокорин П.П. О методах стегоанализа в аудиофайлах // Труды СПИИРАН. Вып. 4. – СПб.: Наука, 2007. – С. 239-246.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.