Статья опубликована в рамках: CCXXXV Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 30 апреля 2026 г.)
Наука: Филология
Секция: Лингвистика
Скачать книгу(-и): Сборник статей конференции
дипломов
АНАЛИЗ ЛЕКСИЧЕСКОГО РАЗНООБРАЗИЯ АНГЛОЯЗЫЧНЫХ ПЕСЕННЫХ ТЕКСТОВ, СГЕНЕРИРОВАННЫХ ИИ (НА МАТЕРИАЛЕ ИИ-ПРОЕКТА «BLEEDING VERSE»)
LEXICO-SEMANTIC ANALYSIS OF AI-GENERATED ENGLISH-LANGUAGE SONG LYRICS (BASED ON THE AI PROJECT "BLEEDING VERSE")
Samorukova Polina Artemovna
Student, Department of Linguistics and Translation Studies, Surgut State University,
Russia, Surgut
Mardanova Maria Alekseevna
Scientific supervisor, candidate of Sciences in Philology, associate professor, Surgut State University,
Russia, Surgutъ
АННОТАЦИЯ
В статье представлены результаты статистического анализа англоязычных песенных текстов, сгенерированных искусственным интеллектом, на материале ИИ-проекта «Bleeding Verse». С применением лингвостатистического метода вычислен коэффициент лексического разнообразия (TTR) для корпуса из 10 песен. Выявлен средний показатель 46,2%, что свидетельствует об относительно высоком уровне лексического разнообразия. Полученные данные сопоставлены с теоретическими ожиданиями о склонности ИИ-текстов к лексической гомогенности.
ABSTRACT
The article presents the results of a statistical analysis of AI-generated English-language song lyrics based on the AI project "Bleeding Verse." Using the linguostatistical method, the Type-Token Ratio (TTR) was calculated for a corpus of 10 songs. The average score of 46.2% indicates a relatively high level of lexical diversity. The findings are compared with theoretical expectations regarding the tendency of AI-generated texts toward lexical homogeneity.
Ключевые слова: песенный дискурс; искусственный интеллект; лексическое разнообразие; TTR; креолизованный текст.
Keywords: song discourse; artificial intelligence; lexical diversity; TTR; creolized text.
Песенный дискурс понимается как текст песен в совокупности с контекстом их создания и интерпретации [1; 4]. Принимая во внимание единство языкового и мелодического компонентов, песню правомерно отнести к числу «креолизованных» текстов, фактура которых состоит из вербальной и невербальной частей [3]. При этом в процессе восприятия доминирующая роль зачастую отводится иконическому знаку, а коммуникативно-художественный эффект детерминирован экстралингвистическими факторами: характером мелодии, музыкальным ладом и манерой вокала. Трудность лингвистического исследования состоит в необходимости абстрагирования от мелодического компонента, поскольку последний не поддаётся однозначной интерпретации [2].
Исследования последних лет позволяют выделить устойчивые характеристики, отличающие тексты, написанные нейросетевыми моделями, от человеческих. На лексическом уровне ИИ-тексты обнаруживают высокую долю знаменательных слов при ограниченном лексическом разнообразии: лексикометрическое исследование выявило значимое превосходство человеческой поэзии по всем показателям, кроме лексической плотности [7]. В другом исследовании зафиксировано, что ИИ использует значительно более сложную и формальную лексику, тогда как человеческие тексты отличаются эмоционально насыщенным словоупотреблением [6]. На дискурсивном уровне С. Занотто подтвердил, что тексты LLM характеризуются значительно меньшей вариативностью лингвистических параметров, а люди демонстрируют более богатое семантическое содержание [10]. Особую значимость имеет регистровый анализ: Бербер Сардинья выявил регистровый дефицит и регистровую метаморфозу – порождение текстов, которые на поверхности напоминают один регистр, но лингвистически реализуются как другой [5]. Таким образом, ИИ-генерированные песенные тексты могут обнаруживать ограниченное лексическое разнообразие, тематическую гомогенность и регистровые несоответствия.
Методологической основой исследования выступает квантитативная лингвистика, позволяющая автоматизировать обработку больших объемов текста [8]. Основным показателем является коэффициент лексического разнообразия (Клекс), вычисляемый по формуле:
Клекс = Л / С,
где Л – число уникальных лексем,
С – общее число слов. Значения находятся в интервале от 0 до 1. Для комплексного анализа используется коэффициент синтаксического разнообразия (Ксинт = 1 – П / С). Поскольку официальных стандартов не существует, оценка проводится методом сравнения в рамках однородной группы текстов: вычисляется среднеарифметическое значение коэффициента, а удовлетворительными считаются результаты, попадающие в интервал стандартного отклонения от средней величины. Лингвостатистические методы, основанные на объективных коэффициентах Клекс и Ксинт, позволяют перейти от субъективных оценок к точным количественным данным, обеспечивая сравнительный анализ в рамках однородных текстовых выборок [8].
Объектом исследования являются англоязычные песенные тексты ИИ-проекта «Bleeding Verse» – музыкального проекта, целиком созданного с использованием инструментов искусственного интеллекта. Создателем проекта является Эндрю Фелон. Согласно его описанию, процесс создания альбома занял порядка 15 минут и включал загрузку аудиотрека-образца на платформу Suno.com, использование функции «Remix > Use Styles & Lyrics» и генерацию текстов песен с помощью встроенной модели ReMi. Таким образом, весь текстовый материал является продуктом генерации. Дебютный альбом «I Became What You Broke» был выпущен 25 июля 2025 года.
Для объективного анализа лексического разнообразия в данной работе применяется лингвостатистический подход. Основным инструментом выступает коэффициент лексического разнообразия (Type-Token Ratio, TTR), рассчитываемый по формуле: Lexical Diversity = (Number of Unique Words / Total Words) × 100 [9]. Этот метод позволяет перейти от субъективной оценки богатства словаря к точным количественным данным.
Методом сплошной выборки было отобрано 10 песен, включающих 2084 лексических единицы. Результаты анализа представлены в таблице:
Таблица 1.
Лексическое разнообразие текстов песен группы «Bleeding Verse»
|
Название песни |
Text Score (TTR), % |
Diversity Range, % |
Scale |
Количество слов |
|
Nothing left to ruin |
48 |
46-50 |
Average |
245 |
|
What I buried to become me |
38 |
36-40 |
Medium |
280 |
|
Static between us |
50 |
46-50 |
Average |
207 |
|
The shape you left me in |
47 |
46-50 |
Average |
210 |
|
Borrowed skin |
48 |
46-50 |
Average |
215 |
|
The ache beneath |
44 |
41-45 |
Average |
197 |
|
Abandoned inside me |
49 |
46-50 |
Average |
208 |
|
Grief with fangs |
54 |
51-55 |
Average |
156 |
|
Absolution nothing |
45 |
41-45 |
Average |
182 |
|
If you loved me then |
39 |
36-40 |
Medium |
184 |
|
Средние значения |
46,2 |
- |
- |
208,4 |
Средний показатель Text Score в выборке составил 46,2%. Значения варьируются от 38% («What I buried to become me») до 54% («Grief with fangs»). Разброс в 16 процентных пунктов указывает на наличие стилистической дифференциации внутри корпуса. При этом большинство текстов (8 из 10) демонстрируют показатели в диапазоне 41-50%, что соответствует шкале «Average». Самый высокий показатель (54%) демонстрирует песня «Grief with fangs», которая также является самой короткой по объёму (156 слов), что может свидетельствовать о стремлении к большей семантической плотности в более лаконичных текстах. Напротив, самая длинная песня («What I buried to become me», 280 слов) показывает один из самых низких показателей TTR (38%).
В контексте ИИ-генерированных текстов полученный средний показатель 46,2% представляет особый интерес. Результаты исследования демонстрируют относительно высокий уровень лексического разнообразия песен ИИ-проекта “Bleeding Verse”. Данные, полученные на материале проекта «Bleeding Verse», указывают на относительно высокий уровень TTR, что может объясняться спецификой использованной языковой модели (ReMi) и особенностями жанра пост-хардкор.
Список литературы:
- Митина, Е. А. К вопросу о структуре лексико-семантического поля «Смерть» / Е. А. Митина // Вестник Челябинского государственного педагогического университета. – 2010. – № 12. – С. 291–302.
- Плотницкий, Ю. Е. Лингвостилистические и лингвокультурные характеристики англоязычного песенного дискурса : автореф. дис. … канд. филол. наук : 10.02.04 / Ю. Е. Плотницкий. – Самара, 2005. – 21 с.
- Современный русский язык : учебник / под общ. ред. Л. А. Новикова. – Санкт-Петербург : Лань, 2003. – 864 с.
- Щур, Г. С. Теория поля в лингвистике. – Москва : Наука, 1974. – 256 с.
- Berber Sardinha, T. Corpus Linguistics and Artificial Intelligence / T. Berber Sardinha // DELTA: Documentação de Estudos em Linguística Teórica e Aplicada. – 2025. – URL: https://doi.org/10.1590/1678-460x202541474063 (дата обращения: 12.04.2026). – Текст : электронный.
- Etaat, F. Exploring linguistic fingerprints in human and AI-generated texts: An NLP-based approach in second language writing / F. Etaat // Ampersand. – 2026. – Vol. 16. – URL: https://www.sciencedirect.com/science/article/pii/S2215039026000056 (дата обращения: 12.04.2026). – Текст : электронный.
- Hamat, A. The Language of AI and Human Poetry: A Comparative Lexicometric Study / A. Hamat // 3L: Language, Linguistics, Literature. The Southeast Asian Journal of English Language Studies. – 2024. – Vol. 30, № 2. – P. 1–20. – URL: https://ejournal.ukm.my/3l/article/view/70291 (дата обращения: 12.04.2026). – Текст : электронный.
- Lexically: WordSmith Tools : [сайт]. – URL: https://www.lexically.net/wordsmith/ (дата обращения: 12.04.2026). – Текст : электронный.
- Readability Formulas: Calculator Lexical Formula : [сайт]. – 2024. – URL: https://readabilityformulas.com/calculator-lexical-formula.php (дата обращения: 12.04.2026). – Текст : электронный.
- Zanotto, S. E. Human variability vs. machine consistency: A linguistic analysis of texts generated by humans and large language models [Электронный ресурс] / S. E. Zanotto, S. Aroyehun // arXiv. – 2025. – URL: https://arxiv.org/abs/2507.13614 (дата обращения: 12.04.2026). – Текст : электронный.
дипломов

