Статья опубликована в рамках: Научного журнала «Студенческий» № 41(337)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6, скачать журнал часть 7, скачать журнал часть 8, скачать журнал часть 9
ЭКСПЕРИМЕНТАЛЬНОЕ СРАВНЕНИЕ КАЧЕСТВА ГЕНЕРИРУЕМОГО ТЕКСТА НА ОСНОВЕ МАРКОВСКИХ ЦЕПЕЙ ПЕРВОГО И ВТОРОГО ПОРЯДКА НА МАТЕРИАЛЕ РОМАНА М.А. БУЛГАКОВА «МАСТЕР И МАРГАРИТА»
EXPERIMENTAL COMPARISON OF THE QUALITY OF THE GENERATED TEXT BASED ON MARKOV CHAINS OF THE FIRST AND SECOND ORDER BASED ON THE NOVEL BY M.A. BULGAKOV "THE MASTER AND MARGARITA"
Tugolukov Maxim Sergeevich
student, Institute of Economics and Finance, Russian University of Transport,
Russia, Moscow
Yakovlev Mikhail Valerievich
student, Institute of Economics and Finance, Russian University of Transport,
Russia, Moscow
АННОТАЦИЯ
Экспериментальное сравнение качества текста, сгенерированного марковскими цепями первого и второго порядка на материале романа М.А. Булгакова «Мастер и Маргарита». Анализ влияния порядка цепи на связность и лексическое разнообразие текста с использованием количественных метрик (длина предложения, TTR, n-граммы). Представление результатов эксперимента и вывод о компромиссе между связностью и вариативностью в зависимости от порядка модели.
ABSTRACT
An experimental comparison of the quality of the text generated by Markov chains of the first and second order based on the novel by M.A. Bulgakov "The Master and Margarita". Analysis of the effect of the chain order on the coherence and lexical diversity of the text using quantitative metrics (sentence length, TTR, n-grams). The presentation of experimental results and the conclusion about the compromise between connectivity and variability depending on the order of the model.
Ключевые слова: Марковские цепи, генерация текста, обработка естественного языка, модель первого порядка, модель второго порядка, количественные метрики, «Мастер и Маргарита».
Keywords: Markov chains, text generation, natural language processing, first-order model, second-order model, quantitative metrics, "The Master and Margarita".
1. Введение
Генерация связного и стилистически правдоподобного текста с помощью статистических моделей остается актуальной задачей в области обработки естественного языка (Natural Language Processing, NLP). Одним из классических и наглядных подходов к этой задаче являются Марковские цепи, которые моделируют последовательности событий (в данном случае, слов), где вероятность следующего события зависит только от текущего состояния (порядка цепи). Простота реализации и интерпретируемость делают их удобным инструментом для учебных и исследовательских целей.
Цель исследования настоящей статьи – провести сравнительный анализ качества текста, сгенерированного на основе марковских цепей первого (зависимость от предыдущего слова) и второго (зависимость от двух предыдущих слов) порядков, используя в качестве обучающего корпуса текст романа М.А. Булгакова «Мастер и Маргарита».
2. Материалы и методы
2.1. Материалы:
В качестве исходного текстового корпуса использовалась электронная версия романа М.А. Булгакова «Мастер и Маргарита» в кодировке UTF-8. Текст был предварительно очищен от знаков препинания (кроме точки), приведен к нижнему регистру и разбит на токены (слова).
2.2. Методы генерации:
Модель 1-го порядка: Для каждого уникального слова в корпусе строился словарь вероятностей следующего за ним слова.
Модель 2-го порядка: Строился словарь вероятностей следующего слова для каждой уникальной пары слов (биграммы).
Генерация текста начиналась со случайного начального слова (для модели 2-го порядка — пары слов) и продолжалась до достижения заданного количества слов или символа конца предложения. Для каждой модели было сгенерировано по 100 текстовых фрагментов длиной от 50 до 100 слов.
2.3. Методы оценки (метрики):
Средняя длина предложения (в словах): рассчитывалась как отношение общего числа слов к количеству сгенерированных предложений. Показатель косвенно указывает на синтаксическую связность.
Лексическое разнообразие (Type-Token Ratio, TTR): рассчитывалось как отношение количества уникальных слов (types) к общему количеству слов (tokens) в сгенерированном фрагменте. Высокий TTR указывает на богатый словарный запас, низкий — на частые повторы.
Эмпирический анализ частотности n-грамм: подсчитывалось количество уникальных биграмм и триграмм в сгенерированных текстах и сравнивалось с их долей в оригинальном тексте. Это позволяет оценить, насколько модель «запоминает» характерные для источника словосочетания.
3. Результаты и обсуждение

Рисунок 1. Лексическое разнообразие (TTR)

Рисунок 2. Средняя длина предложения
Полученные результаты подтверждают теоретические ожидания. Марковская цепь 2-го порядка, обладая «памятью» о двух предыдущих состояниях, эффективнее улавливает синтаксические и стилистические паттерны исходного текста, что выражается в увеличении длины предложений и доли «канонических» n-грамм. Однако это достигается ценой снижения лексического разнообразия и большей детерминированности выходного текста. Модель 1-го порядка, будучи более «случайной», генерирует текст с высокой степенью вариативности, но часто теряет синтаксическую и семантическую связность, что приводит к образованию коротких, абсурдных предложений (например, «Понтий крикнул облако вчерашний вино»). Таким образом, выбор модели представляет собой компромисс между связностью/правдоподобием (2-й порядок) и разнообразием/непредсказуемостью (1-й порядок).
4. Заключение
В ходе исследования было экспериментально доказано, что увеличение порядка Марковской цепи с первого до второго при генерации текста на основе литературного произведения приводит к статистически значимым изменениям в характеристиках выходного текста. Модель 2-го порядка генерирует текст с большей средней длиной предложения и значительной долей оригинальных словосочетаний (n-грамм) из источника, что повышает его связность и стилистическую приближенность к оригиналу. Модель 1-го порядка создает текст с более высоким лексическим разнообразием, но за счет потери синтаксической и семантической целостности.
Список литературы:
- Булгаков М.А. Мастер и Маргарита. — М.: Издательство «Художественная литература», 1973.
- Bird S., Klein E., Loper E. Natural Language Processing with Python. — 1st ed. — O'Reilly Media, 2009. — 482 p. — URL: https://www.nltk.org/book/ (дата обращения: 17.12.2025).
- Manning C.D., Schütze H. Foundations of Statistical Natural Language Processing. — MIT Press, 1999.


Оставить комментарий