Статья опубликована в рамках: Научного журнала «Студенческий» № 22(360)

Рубрика журнала: Филология

Библиографическое описание:

Селезнева А.В. ВЫЧИСЛИТЕЛЬНОЕ МОДЕЛИРОВАНИЕ ИЗВЛЕЧЕНИЯ АРГУМЕНТОВ ПРЕДИКАТОВ (НА МАТЕРИАЛЕ АНГЛОЯЗЫЧНОГО КОРПУСА НОВОСТНЫХ ТЕКСТОВ) // Студенческий: электрон. научн. журн. 2026. № 22(360). URL: https://sibac.info/journal/student/360/423857 (дата обращения: 03.08.2026).

ВЫЧИСЛИТЕЛЬНОЕ МОДЕЛИРОВАНИЕ ИЗВЛЕЧЕНИЯ АРГУМЕНТОВ ПРЕДИКАТОВ (НА МАТЕРИАЛЕ АНГЛОЯЗЫЧНОГО КОРПУСА НОВОСТНЫХ ТЕКСТОВ)

Селезнева Анна Владимировна

студент, Южно-Уральский государственный университет,

РФ, г. Челябинск

Автоматическое извлечение предикатно-аргументных структур — одна из ключевых задач компьютерной лингвистики. Целью исследования была разработка интерпретируемой вычислительной модели извлечения агента и объекта из англоязычных новостных текстов и оценить ее точность.

Модель опирается на теорию глубинных падежей Ч. Филлмора [5], принцип вербоцентризма Л. Теньера [4] и модель «Смысл ⇔ Текст» И.А. Мельчука [2]. На операциональном уровне используется понятие синграммы — фрагмента дерева зависимостей с ядром-глаголом и зависимыми, характеризуемыми типом связи (DEP) и частью речи (POS) [1].

Материалом послужили новостные статьи о России из агентств пяти стран (Зимбабве, Индии, Намибии, Сейшельских Островов, ЮАР) за 2022–2025 гг. На основе частотности и значимости для предметной области были отобраны 10 глаголов: say, have, include, come, call, tell, accuse, meet, want, carry. Из корпуса методом критериальной выборки было отобрано 300 предложений (по 30 на каждый глагол), стратифицированных на обучающую (100), промежуточную (100) и тестовую (100) выборки.

Финальная версия модели реализована на Python с использованием spaCy. Пайплайн включает:

1. Синтаксический анализ предложения.

2. Поиск глагола — обход всех токенов (не только корней) с проверкой POS-тегов VB, VBD, VBG, VBN, VBP, VBZ.

3. Сбор кандидатов — рекурсивный обход потомков в пределах одной клаузы (глубина 4) с отсечением межклаузальных переходов.

4. Фильтрацию — отбрасываются обстоятельства времени (по NER-тегам DATE/TIME и временным предлогам). Для глаголов с предложным управлением реализован переход prep → pobj.

5. Выбор кандидата — для агента приоритет имеют nsubj/nsubjpass слева от глагола, для объекта — dobj справа.

6. Извлечение фразы — с отсечением союзов (cc) и последующих элементов конъюнкции (conj).

Промежуточное тестирование исходной модели показало, что ее точность не достигает приемлемого уровня (всего 44%). Анализ ошибок позволил выделить наиболее частые проблемы: неспособность извлекать агент в пассивном залоге, необработка объекта-предлога и объекта-придаточного, излишнее извлечение при конъюнкции, ошибочное принятие обстоятельств времени за аргументы, а также нестабильность NER-тегов spaCy в политическом дискурсе. Особенно значимой оказалась последняя проблема (имевшая долю 30.4% от всех ошибок), что делало именную сущность ненадежным признаком для различения семантических ролей.

На основе этого анализа методика выявила необходимость включения в алгоритм следующих компонентов: ограничение поиска одной клаузой, фильтрация обстоятельств времени, отсечение элементов конъюнкции (извлечение только первого референта), поиск глаголов в придаточных и герундиальных конструкциях, а также полное исключение NER из критериев проверки. Именно отказ от использования именных сущностей стал ключевым решением, позволившим избежать ложных несовпадений при верно найденных аргументах.

Финальное тестирование на независимой выборке (100 предложений) показало совокупную точность 76,5% (агенты — 76%, объекты — 77%). Анализ оставшихся 23,5% ошибок выявил оставшиеся проблемы: синтаксическая неоднозначность (выбор между несколькими допустимыми DEP), неспособность различать актанты и сирконстанты, ограниченность шаблонов (обучающая выборка с единственным подлежащим затрудняет обработку конъюнкции и пассива).

После разработки вычислительной модели извлечения аргументов предикатов, можно сказать, что основной вклад работы заключается не столько в достигнутом числовом показателе, сколько в выявлении и устранении системных ограничений чисто синтаксического подхода. Отказ от NER, ограничение поиска одной клаузой и отсечение конъюнкции позволили устранить наиболее частотные типы ошибок, однако оставшиеся 23,5% указывают на принципиальную границу методов, основанных только на поверхностных синтаксических признаках. Дальнейшее улучшение модели потребует учета семантической валентности глаголов (для различения актантов и сирконстантов) и выхода на уровень дискурса (для восстановления эллипсиса). Тем не менее уже в текущем виде модель пригодна для автоматического извлечения предикатно-аргументных структур без ручной разметки корпуса, а алгоритм генерации синграмм может быть перенесен на другие языки при наличии качественного синтаксического парсера.

Список литературы:

Бабина О.И. Лингвостатистический анализ синграмм в автороведческом исследовании текста. – Челябинск: ЮУрГУ, 2025. – С. 174–178.
Мельчук И.А. Опыт теории лингвистических моделей «Смысл ↔ Текст». – М.: Языки русской культуры, 1999. – 346 с.
Падучева Е. В. Семантические исследования : семантика времени и вида в русском языке ; семантика нарратива / Е. В. Падучева. — Москва : Языки русской культуры, 1996. — 464 с. — Текст : непосредственный.
Теньер Л. Основы структурного синтаксиса. – М.: Прогресс, 1988. – 656 с.
Fillmore C.J. Some problems for case grammar // Monograph series on languages and linguistics. – 1971. – Vol. 24. – P. 35–56.