Статья опубликована в рамках: CCXXXVIII Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 08 июня 2026 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
СИСТЕМА ДЛЯ ПОЛУАВТОМАТИЗИРОВАННОГО СОЗДАНИЯ ДАТАСЕТОВ ИЗ БОЛЬШИХ АУДИОФАЙЛОВ ДЛЯ ОБУЧЕНИЯ МОДЕЛЕЙ ГЕНЕРАЦИИ РЕЧИ
АННОТАЦИЯ
Цель: разработка системы, позволяющей автоматизировать процесс создания размеченных датасетов из длительных аудиофайлов для последующего обучения моделей генерации речи. Метод: предложенная система использует библиотеку Vosk для автоматического распознавания речи и получения временных меток слов, визуальный редактор на базе PyQt5 для ручной коррекции границ сегментов, а также алгоритмы расстановки знаков препинания и разметки предложений по паузам. Результат: разработано десктопное приложение, поддерживающее русский и английский языки, позволяющее выполнять транскрибацию аудио, редактирование временных меток перетаскиванием мышью, автоматическую постобработку текста и экспорт датасета в формате JSON. Вывод: применение разработанной системы значительно сокращает трудозатраты на создание речевых датасетов, обеспечивая при этом высокое качество разметки благодаря возможностям ручной коррекции. Система может быть использована исследователями для подготовки обучающих данных из произвольных аудиоматериалов.
ABSTRACT
Objective: development of a system that automates the process of creating labeled datasets from long audio files for subsequent training of speech generation models. Method: the proposed system uses the Vosk library for automatic speech recognition and obtaining word timestamps, a visual editor based on PyQt5 for manual correction of segment boundaries, as well as algorithms for punctuation restoration and sentence segmentation by pauses. Results: a desktop application has been developed that supports Russian and English languages, allows audio transcription, drag-and-drop timestamp editing, automatic text post-processing, and dataset export in JSON format. Conclusion: the application of the developed system significantly reduces labor costs for creating speech datasets while ensuring high markup quality through manual correction capabilities. The system can be used by researchers to prepare training data from arbitrary audio materials.
Ключевые слова: датасет; синтез речи; выравнивание аудио и текста; Vosk; обработка речи; машинное обучение; транскрибация.
Keywords: dataset; speech synthesis; audio-text alignment; Vosk; speech processing; machine learning; transcription.
Современные модели генерации речи, такие как Tacotron 2, FastPitch и VITS, демонстрируют впечатляющие результаты синтеза естественно звучащей речи. Ключевым фактором успеха этих моделей является наличие больших высококачественных размеченных датасетов, содержащих аудиозаписи и соответствующие им текстовые транскрипции с точной временной привязкой. Однако создание таких датасетов остаётся трудоёмкой задачей, требующей значительных временных затрат. Как отмечается в исследовании, посвящённом русскоязычному датасету Balalaika [1], при создании качественных речевых датасетов необходимо решать комплекс проблем: редукция гласных, оглушение согласных, вариативность ударений, омонимия, а также сложности с пунктуацией и интонацией. Авторы подчёркивают, что использование только сырых текстовых и аудиопар недостаточно для достижения высокого качества синтеза речи на русском языке [1, с. 4]. Для русского языка эти проблемы особенно актуальны в силу его фонетических и морфологических особенностей.
Существующие открытые датасеты, такие как MLS, LibriTTS, GOLOS, имеют ряд ограничений. Во-первых, многие из них основаны на аудиокнигах, что не отражает разнообразия естественной разговорной речи. Во-вторых, они часто не содержат необходимых аннотаций, таких как ударения или знаки препинания. Как показано в работе Сбоева и соавторов [2], при создании синтетических датасетов для русского языка необходимо использовать специальные механизмы фильтрации для удаления низкокачественных аудиозаписей, содержащих длинные паузы, искажения слов и шумы [2, с. 481]. В-третьих, для русского языка количество доступных высококачественных размеченных датасетов ограничено. В связи с этим актуальной задачей является разработка инструментальных средств, позволяющих исследователям самостоятельно подготавливать обучающие данные из имеющихся аудиоматериалов.
Разработанная система представляет собой десктопное приложение с графическим интерфейсом, реализованное на языке Python с использованием фреймворка PyQt5. Выбор Python обусловлен наличием богатой экосистемы библиотек для обработки аудиоданных и машинного обучения, а также кроссплатформенностью. PyQt5 обеспечивает создание нативного графического интерфейса с поддержкой всех необходимых элементов управления: визуализации аудиосигнала, таблиц для отображения временных меток, панелей инструментов и диалоговых окон.
Архитектура системы включает следующие основные модули: модуль загрузки и управления аудиоданными, модуль автоматического распознавания речи, модуль визуального редактирования временных меток, модуль постобработки (пунктуация и сегментация по паузам), модуль экспорта датасета. Такая модульная структура обеспечивает гибкость и возможность расширения функциональности.
Для автоматической транскрибации аудиофайлов используется библиотека Vosk, предоставляющая API для распознавания речи с открытым исходным кодом. Как показано в исследовании Graham и Wright [3], Vosk обеспечивает возможность эффективного распознавания речи в различных условиях и может использоваться в офлайн-приложениях реального времени. Авторы отмечают, что использование кастомных языковых моделей с Vosk позволяет снизить частоту ошибок распознавания слов, особенно в специализированных предметных областях, включающих техническую терминологию и фоновый шум [3, с. 2]. Vosk поддерживает русский и английский языки, работает в офлайн-режиме и обеспечивает достаточно высокую точность распознавания, что подтверждается современными сравнительными исследованиями систем автоматического распознавания речи [3, с. 5].
Ключевой особенностью разработанной системы является графический редактор, позволяющий вручную корректировать временные метки.
Редактор включает визуализацию аудиосигнала (волновую форму) с возможностью масштабирования и навигации, отображение сегментов (слов или предложений) в виде цветных блоков на временной шкале, интерактивное редактирование границ сегментов перетаскиванием мышью, а также поддержку горячих клавиш для навигации и редактирования (стрелки для перемещения между сегментами, клавиши «плюс» и «минус» для расширения или сужения выделенного сегмента, пробел для воспроизведения).

Рисунок 1. Часть изображения пользвовательского интерфейса
Сегменты, отредактированные вручную, также имеют специальную цветовую маркировку (светло-зелёный фон), что позволяет пользователю легко отличать автоматически полученные данные от уточнённых вручную.

Рисунок 2. Часть изображения пользвовательского интерфейса
Для обеспечения высокого качества разметки система предоставляет пользователю следующие возможности редактирования: перетаскивание левой или правой границы сегмента непосредственно на визуализации аудиосигнала; ввод точных числовых значений времени через диалоговое окно (доступно по двойному клику по соответствующей ячейке в таблице); автоматическая коррекция аномально коротких или длинных сегментов до среднего значения по всем сегментам; нормализация временных меток с устранением перекрытий и разрывов между соседними сегментами. Дополнительно реализована функция воспроизведения выделенного сегмента, что позволяет пользователю на слух оценить корректность установленных временных границ. Все эти функции делают процесс ручной коррекции интуитивно понятным и минимально трудоёмким.
Созданный датасет может быть экспортирован в JSON-формате. JSON выбран в качестве формата экспорта в силу его широкой распространённости, человекочитаемости и простоты обработки различными языками программирования. Для каждого сегмента экспортируемый файл включает следующие поля: начало сегмента в секундах, конец сегмента в секундах, текст сегмента. При необходимости в структуру могут быть добавлены дополнительные поля, такие как уровень уверенности распознавания и признак ручного редактирования. Полученный JSON-файл может быть в дальнейшем использован для обучения моделей синтеза речи, а также для других задач обработки естественного языка.
Разработанная система может быть использована исследователями в области синтеза речи и обработки естественного языка для подготовки обучающих данных из произвольных аудиоматериалов. Перспективными направлениями дальнейшего развития системы являются интеграция более точных моделей распознавания речи, добавление поддержки дополнительных языков, реализация автоматической расстановки ударений для русского языка, а также создание веб-версии системы для коллективной работы над датасетами.
Список литературы:
- Borodin K., Vasiliev N., Kudryavtsev V., Maslov M., Gorodnichev M., Rogov O., Mkrtchian G. A Data-Centric Framework for Addressing Phonetic and Prosodic Challenges in Russian Speech Generative Models // arXiv preprint. – 2025. – arXiv:2507.13563. – URL: https://arxiv.org/abs/2507.13563 (дата обращения: 08.06.2025).
- Сбоев А.Г., Наумов А.В., Грязнов А.В., Рыбка Р.Б. Synth-ruSC: Construction and Validation of Synthetic Dataset to Solve the Problem of Keyword Spotting in Russian // Advances in Neural Computation, Machine Learning, and Cognitive Research VIII: Selected Papers from the XXVI International Conference on Neuroinformatics, October 21-25, 2024, Moscow, Russia. – Cham: Springer Nature Switzerland, 2024. – С. 480-490. – DOI: 10.1007/978-3-031-80463-2_45.
- Graham O., Wright D. Improving Speech Recognition Accuracy Using Custom Language Models with the Vosk Toolkit // arXiv preprint. – 2025. – arXiv:2503.21025. – URL: https://arxiv.org/abs/2503.21025 (дата обращения: 08.06.2025).
дипломов

