Статья опубликована в рамках: Научного журнала «Студенческий» № 15(353)
Рубрика журнала: Информационные технологии
ТРАНСФОРМЕР-МОДЕЛИ В КОРПОРАТИВНОМ ЭЛЕКТРОННОМ ДОКУМЕНТООБОРОТЕ
TRANSFORMER MODELS IN CORPORATE ELECTRONIC DOCUMENT MANAGEMENT
Zuev Pavel Yuryevich
Student, Department of Digital management technologies and information secutity, Ural state University,
Russia, Yekateriburg
Nokhrin Vladimir Vladimirovich
Student, Department of Digital management technologies and information secutity, Ural state University,
Russia, Yekateriburg
Timirova Anna Mikhailovna
Scientific supervisor, candidate of Sciences in Economics, associate professor, Ural state University of Economics,
Russia, Yekaterinburg
АННОТАЦИЯ
В статье рассматривается применение трансформер-моделей для классификации и маршрутизации корпоративных документов. Показано, что модели BERT, ruBERT и XLM-R позволяют учитывать контекст делового текста и снижать долю ручной сортировки при условии контроля качества данных и экспертной проверки спорных случаев.
ABSTRACT
The article examines the use of transformer models for classification and routing of corporate documents. It is shown that BERT, ruBERT and XLM-R models can capture the context of business texts and reduce manual sorting when data quality control and expert review are included.
Ключевые слова: электронный документооборот; трансформер-модели; классификация документов; маршрутизация; BERT; ruBERT; NLP.
Keywords: electronic document management; transformer models; document classification; routing; BERT; ruBERT; NLP.
Корпоративные системы электронного документооборота ежедневно обрабатывают договоры, счета, акты, претензии, кадровые документы и служебные письма. Значительная часть трудозатрат связана с первичной сортировкой: сотрудник должен определить тип документа, выбрать ответственного исполнителя и запустить нужный маршрут согласования. Простые правила по ключевым словам полезны для стабильных шаблонов, но плохо работают при изменении формулировок и появлении новых типов документов.
Трансформерные модели решают эту проблему за счет механизма внимания, который оценивает связи между словами внутри всего фрагмента текста [1]. В прикладном контуре документ сначала переводится в текст, очищается от технических символов и передается в классификатор. Модель определяет вероятный класс документа и уровень уверенности. Если уверенность высока, документ автоматически направляется в бизнес-процесс; если низка, он поступает оператору на проверку.
Для русскоязычных документов особенно важен выбор базовой модели. BERT задал схему предварительного обучения и дообучения под конкретную задачу [2], но деловые тексты на русском языке содержат падежные формы, сокращения и профессиональные клише. Поэтому целесообразно сочетать ruBERT с многоязычной XLM-R, устойчивой к документам с иностранными терминами [2].
Практическая архитектура должна включать управленческий контур качества: журнал предсказаний, фиксацию уверенности, разбор ошибок маршрутизации и пополнение обучающей выборки проверенными примерами. Такой цикл позволяет быстро адаптировать систему к новым шаблонам документов.
В результате трансформер-модели следует рассматривать как инструмент поддержки документооборота, а не как полную замену специалиста. Типовые документы могут маршрутизироваться автоматически, а редкие и юридически значимые случаи должны проходить экспертную проверку. Это ускоряет входящий поток и снижает число операционных ошибок.
Список литературы:
- Лобанов, Б. Б., Белоус, Р. А., Лобанова, Н. А. Вычислительная лингвистика: Основы и приложения. — Санкт-Петербург: ЛАНЬ, 2020. — 496 с.
- Гилберт, Н., Хэннигэн, П. Применение машинного обучения к обработке документов // Journal of Data Science. — 2021. — Т. 15, № 3. — С. 112–127.

