Статья опубликована в рамках: Научного журнала «Студенческий» № 16(144)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6

Библиографическое описание:

Посысаев Г.С. АНАЛИТИЧЕСКИЙ ОБЗОР ТЕХНОЛОГИИ КЛОНИРОВАНИЯ ГОЛОСА И ЕЕ ПРАКТИЧЕСКОЕ ПРИМЕНЕНИЕ В ПОВСЕДНЕВНОЙ ЖИЗНИ // Студенческий: электрон. научн. журн. 2021. № 16(144). URL: https://sibac.info/journal/student/144/210189 (дата обращения: 23.07.2026).

АНАЛИТИЧЕСКИЙ ОБЗОР ТЕХНОЛОГИИ КЛОНИРОВАНИЯ ГОЛОСА И ЕЕ ПРАКТИЧЕСКОЕ ПРИМЕНЕНИЕ В ПОВСЕДНЕВНОЙ ЖИЗНИ

Посысаев Георгий Сергеевич

студент бакалавриата, 2 курс, Институт информационных технологий, МИРЭА-Российский технологический университет (РТУ МИРЭА),

РФ, г. Москва

Свищёв Андрей Владимирович

научный руководитель,

ассистент кафедры практической и прикладной информатики, Институт информационных технологий, МИРЭА-Российский технологический университет (РТУ МИРЭА),

РФ, г. Москва

ANALYTICAL REVIEW OF VOICE CLONING TECHNOLOGY AND ITS PRACTICAL APPLICATION IN EVERYDAY LIFE

Georgy Posysaev

undergraduate student, 2nd year, Institute of Information Technology, MIREA-Russian Technological University (RTU MIREA),

Russia, Moscow

Andrey Svishchev

scientific advisor, assistant of the Department of Practical and Applied Informatics, Institute of Information Technologies, MIREA-Russian Technological University (RTU MIREA),

Russia, Moscow

АННОТАЦИЯ

В данной статье рассматривается концепт технологии голосового клонирования и аспекты ее применения в настоящее время. Также анализируется будущее данной технологии с выделением ее проблематики.

ABSTRACT

This article discusses the concept of voice cloning technology and aspects of its application at the present time. The future of this technology is also analyzed, highlighting its problems.

Ключевые слова: голосовой DeepFake, искусственный интеллект, клонирование голоса.

Keywords: voice DeepFake, artificial intelligence, voice cloning.

Каждый день мы сталкиваемся с необходимостью общаться с другими людьми. То, как они говорят, какой у них тембр голоса, с какой скоростью наш собеседник говорит – все это дает нам массу полезной информации о владельце голоса. Мы можем понять, как человек себя чувствует, что его беспокоит, в конце концов его отношение к нам. Поэтому такая вещь, как голос человека является неотъемлемой частью нашей жизни, которая и подтолкнула технологии к развитию в данной области. Так, появилось голосовое клонирование, которое стремительно развивается в настоящее время. Уже сейчас мы можем заставить искусственный интеллект сказать какую угодно фразу голосом любой знаменитой личности, будь то президент какой-либо страны или известная певица. Всем нам известный “Вконтакте” во всю использует возможности данной технологии – с помощью нее достигнута реализация текстового отображения голосовых сообщений. Насколько же это важно в современном мире. Человек, у которого имеются проблемы со слухом, может также, как и все воспринимать то, что нас окружает. У данной технологии масса применений: начиная от использования ее в развлекательных целях и заканчивая такой громадной индустрией современности, как кино.

О том, что из себя представляет данная технология, какой вклад она внесла в развитие нашего общества и об областях ее применения далее и пойдет речь. Также будет затронуто будущее данной технологии и ее возможная негативная составляющая.

Начнем мы с концепта данной технологии, рассматривая то, из чего она состоит. Существует несколько реализаций голосового клонирования и, соответственно, у них разные цели и задачи.

Так, в 2019 году был разработан проект под названием Neural Voice Puppetry. Суть данной концепт-модели голосового клонирования такова. Технология генерирует видеозаписи и для этого ей нужен лишь аудиофайл с голосом человека и его фотография. Процесс состоит из трех этапов. Сперва рекуррентная нейросеть анализирует речь на записи и строит логит-модель, отражающую особенности произношения спикера. Она направляется в обобщающую нейронную сеть, которая рассчитывает коэффициенты для построения трехмерной модели лица. Далее, в дело вступает рендер-модуль, который генерирует финальную запись.

Такая технология имеет будущее в голографической сфере. Например, в аэропортах вас может встречать приветливая голограмма с человеческим голосом и сущностью, которая говорит на всех языках мира. Звучит фантастически, но скоро такое применение технологии станет обыденностью и не будет какой-то особенностью для современного человека. Примером такого использования голограмм может являться аэропорт в Барселоне на (рис. 1).

Рисунок 1. Использование голограммы в аэропорту Барселоны

Следующий концепт голосового клонирования называется Real-Time Voice Cloning и находится в свободном доступе в гит-репозитории. То есть любой желающий может сделать форк (скачать) данный репозиторий и доработать технологию по своему усмотрению. В Real-Time Voice Cloning система клонирования принимает два входных источника: текст, который необходимо озвучить, и образец голоса, которым этот текст должен быть прочитан. Диаграмма, описывающая концепцию технологии представлена на (рис.2) [2].

Немного объясним схему для более полного понимания сути процесса.

Рисунок 2. Концепт Real-Time Voice Cloning

Если рассматривать систему с технической точки зрения, то мы можем разбить ее на 3 компонента:

Передаваемый аудиофайл имеет образец речи в виде звуковой дорожки. Он преобразуется кодером речи (speaker encoder) в векторное представление фиксированной размерности.
Текст, который мы передаем также кодируется в векторное представление, только уже кодером текста (text encoder). Далее эти вектора (речевой и текстовый) декодируются в спектрограмму. На схеме кодер текста, декодер и конкатенатор векторов обозначены синим цветом и представляют собой структуру синтезатора речи.
И, наконец, вокодер (vocoder) преобразует созданную ранее спектрограмму в звуковую форму.

Эти модели трех компонентов представляют собой некие нейросети и обучаются они независимо друг от друга.

Такой подвид технологии можно использовать во многих аспектах современной жизни: аудиореклама, голосовые поздравления, локализация для иностранных фильмов, адаптация речи под местный акцент и так далее.

Далее рассмотрим не очень приятную сторону развития данной технологии мошенничество. К сожалению, с инновациями и прогрессом приходят и новые способы воровства, подлога и других незаконных действий. Примером тому может служить реальный случай, произошедший в 2019 году. Директор английской энергетической компании перевел 240 тыс. долларов мошеннику. Тот сымитировал голос главы концерна из Германии с помощью нейронных сетей и попросил совершить транзакцию. Исходя из этого мы делаем вывод о том, что реализация данных технологий должна четко контролироваться и регламентироваться правоохранительными органами. Именно поэтому компании, которые очень упорно работают в сфере клонирования голоса активно работают с политиками, продвигая важность создания новых законов, которые будут регулировать данное направление. Все это делается для того, чтобы не повторялось ситуаций подобных той, о которой было сказано ранее, ведь такая технология может стать пагубной для многих корпораций, а может даже, и для государств.

Список литературы:

Статья «Кто занимается дипфейк-аудио и зачем это нужно» [Электронный ресурс] URL: https://habr.com/ru/company/audiomania/blog/499058/ (Дата обращения: 21.04.2021).
Статья «Голосовой DeepFake, или Как работает технология клонирования голоса» [Электронный ресурс] URL: https://proglib.io/p/golosovoy-deepfake-ili-kak-rabotaet-tehnologiya-klonirovaniya-golosa-2019-12-11 (Дата обращения: 21.04.2021).
Статья «Многоязычный синтез речи с клонированием» [Электронный ресурс] URL: https://habr.com/ru/post/465941/ (Дата обращения: 20.04.2021).
Технология клонирования голоса «Resemble AI» [Электронный ресурс] URL: https://app.resemble.ai/voices (Дата обращения: 20.04.2021).