Статья опубликована в рамках: Научного журнала «Студенческий» № 20(358)
Рубрика журнала: Юриспруденция
Скачать книгу(-и): скачать журнал
РАСПОЗНАВАНИЕ РЕЧИ И ИДЕНТИФИКАЦИЯ ДИКТОРА В УСЛОВИЯХ ИСПОЛЬЗОВАНИЯ ПРОГРАММ-ИЗМЕНИТЕЛЕЙ ГОЛОСА
SPEECH RECOGNITION AND SPEAKER IDENTIFICATION USING VOICE CHANGER SOFTWARE
Avanesov Emil Garikovich
Student, Department of Criminal Law and Procedure, North Caucasian Federal University,
Russia, Stavropol
Shcherbalev Andrey Andreevich
Scientific supervisor, Assistant Professor of the Department of Criminal Law and Procedure at the Law Institute, North Caucasian Federal University,
Russia, Stavropol
АННОТАЦИЯ
Статья посвящена одной из наиболее острых проблем современной криминалистической фоноскопии - распознаванию речи и идентификации диктора в условиях активного применения программ-изменителей голоса и технологий синтеза речи на основе искусственного интеллекта. На конкретных примерах из правоприменительной практики демонстрируется растущая уязвимость традиционных методов судебной фоноскопической экспертизы перед алгоритмами питч-шифтинга и нейросетевого синтеза. Особое внимание уделено процессуальным трудностям, возникающим при формулировании вопросов эксперту и оценке доказательственного значения модифицированных фонограмм. Обозначена проблема дефицита методик выявления признаков цифрового искажения голоса. В статье обосновывается необходимость смещения экспертного фокуса с изолированного акустического анализа на комплексное исследование цифрового следа, включая метаданные файлов и признаки работы конкретных алгоритмов обработки. Формулируется тезис о том, что в условиях технологического прогресса голос как биометрический идентификатор требует перехода от парадигмы доверия к парадигме строгой криминалистической верификации.
ABSTRACT
This article addresses one of the most pressing issues in modern forensic phonoscopy: speech recognition and speaker identification in the context of the widespread use of voice-altering software and AI-based speech synthesis technologies. Specific examples from law enforcement practice demonstrate the growing vulnerability of traditional forensic phonoscopic examination methods to pitch-shifting and neural network synthesis algorithms. Particular attention is paid to procedural difficulties arising when formulating questions for an expert and assessing the evidentiary value of modified phonograms. The problem of a shortage of methods for identifying signs of digital voice distortion is highlighted. The article substantiates the need to shift the expert focus from isolated acoustic analysis to a comprehensive study of the digital trace, including file metadata and indicators of the operation of specific processing algorithms. It is formulated that, in the context of technological progress, voice as a biometric identifier requires a transition from the paradigm of trust to the paradigm of strict forensic verification.
Ключевые слова: судебная фоноскопия, идентификация диктора, программы-изменители голоса, дипфейк, синтез речи, питч-шифтинг, цифровая криминалистика, доказательства, фальсификация голоса, искусственный интеллект.
Keywords: Forensic audio, speaker identification, voice alteration software, deepfake, speech synthesis, pitch-shifting, digital forensics, evidence, voice tampering, artificial intelligence.
Технологический прогресс породил и вызовы правосудию. Одним из самых острых вопросов современной криминалистической науки становится парадоксальная ситуация: голос, традиционно считающийся уникальным биометрическим идентификатором человека, перестает быть неопровержимой уликой. Причина тому становится распространение общедоступных программ-изменителей голоса и технологий синтеза речи на основе искусственного интеллекта. Если раньше преступник мог рассчитывать лишь на изменение тембра, то сегодня инструментарий злоумышленника способен в режиме реального времени трансформировать акустические характеристики речи до неузнаваемости.
С точки зрения судебной фоноскопии, любое вторжение в речевой сигнал делится на два принципиально разных направления: изменение акустических характеристик живого голоса (маскираторы) и полный синтез речевого высказывания (дипфейк-аудио). Хотя грань между ними в последнее время стирается, криминалистическое значение этих способов различно.
Программы-маскираторы работают преимущественно на алгоритмах, именуемых в экспертной среде «питч-шифтингом», - изменение высоты основного тона. Принцип действия заключается в сжатии или растяжении коротких участков речевого сигнала во временной области. Для того чтобы голос звучал естественно, современные программы оснащаются функцией коррекции формантных частот. Это позволяет, например, повысить частоту основного тона до «женских» показателей, удаляя характерные для мужского голоса низкочастотные составляющие в диапазоне 100–500 Гц, оставив при этом неизменными артикуляционные признаки. Сложность для эксперта-фоноскописта заключается в том, что запись ведется непосредственно в момент разговора, минуя стадию постобработки. Цифровой код преобразуется процессором в режиме реального времени, и на выходе получается новая, непрерывная акустическая среда без видимых признаков ситуационных изменений и монтажных склеек.
Вторая, более опасная категория - это синтез речи с помощью нейросетей. Если маскиратор меняет голос живого человека, то дипфейк создает высказывание, которого спикер в реальности никогда не произносил. В 2024 году транснациональная компания в Гонконге потеряла 25,6 млн долларов именно из-за того, что сотрудники приняли сгенерированную видеоконференцию с участием «руководства» за подлинную. Анализ судебной практики показывает, что отечественная правоохранительная система также столкнулась с этой угрозой.
При производстве судебной фоноскопической экспертизы специалист сталкивается с фундаментальной проблемой разрыва между возможностями техники и методическим обеспечением.
Основные трудности локализованы в следующих плоскостях. Во-первых, это формулировка вопросов, выносимых на разрешение экспертизы. Следователь привык ставить идентификационные вопросы: «Принадлежит ли голос гражданину X.?». Однако в случае использования программ-маскираторов или технологий дипфейка ответ на этот вопрос становится маловероятным или требует переформулирования в диагностический: «Имеются ли на фонограмме признаки искусственного изменения акустических характеристик голоса?».
Во-вторых, наблюдается очевидный дефицит валидизированных методик. Инструментальные методы анализа часто фиксируют лишь неестественные скачки частот или шумы квантования, но не могут «извлечь» оригинальный голос из-под слоя маскировки. В этих условиях на первый план выходит лингвистический анализ содержания. Эксперты справедливо отмечают, что даже при сильном искажении тембра, содержательная часть высказывания - лексический запас, диалектные особенности, построение фраз, слова-паразиты - остается неизменной и может служить ценной идентификационной подсистемой.
Третья проблема - качество сравнительных образцов. Следуя методическим рекомендациям, для получения достоверного вывода экспериментальные образцы речи подозреваемого должны быть получены в аналогичных эмоциональных и акустических условиях. Однако смоделировать идентичную степень цифровой обработки голоса для сравнения в рамках следственного действия сложно. Кроме того, современные звукозаписывающие устройства конструктивно устроены так, что отсекают значительную часть криминалистически значимой информации об индивидуальных призвуках, хрипоте и тембральных нюансах, что дополнительно затрудняет выделение следов имитации.
УПК РФ не содержит прямого запрета на использование аудиозаписей, подвергшихся цифровой модификации. Однако в соответствии с требованиями ст. 88 УПК РФ, доказательство должно быть проверяемым и достоверным. Если эксперт не в состоянии ответить на вопрос о наличии признаков монтажа или маскировки либо установить их наличие, такая фонограмма неизбежно теряет доказательственную силу.
Постановления Пленума Верховного Суда РФ, хотя и не содержат пока узкоспециализированных разъяснений по дипфейкам в фоноскопии, формируют общий критический подход к оценке электронных доказательств. Суды ориентированы на необходимость проверки происхождения аудиоматериалов и условий их фиксации. В делах о мошенничестве, где идентификация диктора строится исключительно на субъективном опознании голоса потерпевшим, защита все чаще апеллирует к существованию технологий синтеза речи. Такие ходатайства обоснованно ставят перед судом вопрос о назначении комплексной компьютерно-технической и фоноскопической экспертизы.
Отдельного размышления заслуживает идея выделения искусственного интеллекта как отягчающего обстоятельства. С одной стороны, общественная опасность дипфейка колоссальна. Технология позволяет создавать практически неотличимые от реальности компрометирующие материалы, шантажировать и разрушать деловую репутацию. С другой стороны преступление совершает не нейросеть, а человек, а существующих статей о мошенничестве и клевете достаточно для правовой оценки, если доказательная база собрана безупречно. Квалификационный акцент, вероятно, следует делать не на инструменте, а на масштабах и механизме введения в заблуждение неопределенного круга лиц.
В качестве частного взгляда на проблему видится необходимость смещения акцента с попыток «услышать сквозь помехи» на системный анализ ситуации. Когда эксперт-фоноскопист упирается в невозможность идентификации по акустике, на помощь должна приходить цифровая криминалистика: исследование метаданных файла, таймлайнов создания записи, следов использования конкретного программного обеспечения. Более того, ситуация диктует необходимость внедрения презумпции критической оценки неподтвержденных аудиосообщений. Следователь и суд должны исходить из того, что любой цифровой голосовой след, полученный без возможности исследования исходного устройства записи, может быть скомпрометирован на этапе его создания нейросетевыми алгоритмами.
Действующая ситуация показывает, что право пока находится в роли догоняющего по отношению к прогрессу развития искусственного интеллекта и технологий изменения голоса. Преодоление этого разрыва кроется не только в оснащении лабораторий, но и в развитии междисциплинарного мышления юристов, способных понимать природу цифрового следа. Голос перестал быть константой, следовательно, и отношение к нему в уголовном процессе должно трансформироваться от слепого доверия к строгой верификации.
Список литературы:
- "Уголовный кодекс Российской Федерации" от 13.06.1996 N 63-ФЗ (ред. от 09.04.2026)
- "Уголовно-процессуальный кодекс Российской Федерации" от 18.12.2001 N 174-ФЗ (ред. от 08.03.2026) (с изм. и доп., вступ. в силу с 26.04.2026)
- Постановление Пленума Верховного Суда РФ от 19.12.2017 N 51 (ред. от 09.12.2025) "О практике применения законодательства при рассмотрении уголовных дел в суде первой инстанции (общий порядок судопроизводства)"
- Минеева, Е. Д. Некоторые проблемы, возникающие при производстве экспертиз по исследованию звуковых следов / Е. Д. Минеева. — Текст : непосредственный // Молодой ученый. — 2021. — № 21 (363). — С. 238-239.

