Статья опубликована в рамках: Научного журнала «Студенческий» № 19(357)

Рубрика журнала: Информационные технологии

Библиографическое описание:

Зыбкин Е.В. ИСПОЛЬЗОВАНИЕ ТЕХНОЛОГИЙ TEXT MINING ДЛЯ ПОВЫШЕНИЯ ДОСТУПНОСТИ ИНФОРМАЦИИ В ПРОГРАММНО-ТЕХНИЧЕСКОЙ ДОКУМЕНТАЦИИ // Студенческий: электрон. научн. журн. 2026. № 19(357). URL: https://sibac.info/journal/student/357/418838 (дата обращения: 03.08.2026).

ИСПОЛЬЗОВАНИЕ ТЕХНОЛОГИЙ TEXT MINING ДЛЯ ПОВЫШЕНИЯ ДОСТУПНОСТИ ИНФОРМАЦИИ В ПРОГРАММНО-ТЕХНИЧЕСКОЙ ДОКУМЕНТАЦИИ

Зыбкин Евгений Викторович

магистрант, кафедра информационных систем, Московский государственный технологический университет «Станкин»,

РФ, г. Москва

Саркисова Ирина Олеговна

научный руководитель,

канд. техн. наук, доц., Московский государственный технологический университет «Станкин»,

РФ, г. Москва

АННОТАЦИЯ

В статье рассматривается применение технологий Text Mining для повышения доступности информации, содержащейся в программно-технической документации. Показано, что такие документы характеризуются большим объёмом, сложной структурой, терминологической вариативностью и регулярным обновлением содержания. Обосновано, что традиционные средства поиска, основанные преимущественно на совпадении слов и фраз, не всегда обеспечивают достаточную поддержку пользователя при работе с крупными текстовыми массивами. Рассмотрены возможности Text Mining как подхода к преобразованию неструктурированных текстовых данных в форму, пригодную для машинной обработки, анализа и интеллектуального поиска.

Ключевые слова: Text Mining; программно-техническая документация; интеллектуальный поиск; обработка текстовых данных; семантический анализ; доступность информации.

В условиях цифровой трансформации предприятий всё большее значение приобретает не только создание и хранение информации, но и обеспечение доступа к ней. Особенно актуальна данная задача для организаций, деятельность которых связана с разработкой, сопровождением и эксплуатацией программных продуктов. В таких условиях программно-техническая документация становится одним из ключевых источников корпоративных знаний, содержащим сведения о требованиях, архитектуре, алгоритмах, интерфейсах, сценариях использования и регламентах сопровождения программных систем.

Программно-техническая документация является набором документов, описывающих разработку, функционирование и поддержку программного обеспечения. Прежде всего она полезна самим разработчикам, так как позволяет им проследить этапы разработки, оценить масштабы работы, проанализировать функции и логику, что значительно упрощает обслуживание и настройку программы. Важно также и то, что документация является единым источником правды для всех специалистов, участвующих в разработке программного продукта, что способствует минимизации недопонимания и недосказанности между сотрудниками в процессе работы. Помимо этого, такая документация служит и точкой входа в проект для нового члена команды, будь то разработчик, тестировщик, аналитик или иной специалист [1].

Программно-техническая документация включает:

Эксплуатационную документацию, которая содержит полное описание функциональных возможностей и пошаговые инструкции по эксплуатации программного продукта;
Проектную документацию с описанием технического задания, архитектурой системы, структурными диаграммами и описанием логики работы программного продукта;
Техническую документацию, содержащую описание программного кода, алгоритмов, спецификации API и схемы БД;
Технологическую документацию, описывающую регламенты развёртывания и процедуры обновления, содержащую инструкции CI/CD и фиксирующую журналы изменений.

Одной из основных проблем при работе с программно-технической документацией является её объём. В крупных информационных системах отдельные документы могут содержать десятки и сотни страниц, включать множество разделов, подразделов, таблиц, схем, фрагментов кода и ссылок на смежные материалы. В результате пользователь, даже имея доступ к нужному документу, не всегда может быстро определить, в какой его части содержится необходимая информация. Следовательно, проблема заключается не только в хранении документации, но и в обеспечении доступности содержащихся в ней сведений.

Дополнительную сложность создаёт терминологическая вариативность. Одно и то же понятие в программно-технической документации может обозначаться разными способами: полным наименованием, сокращением, профессиональной аббревиатурой, внутренним термином команды или формулировкой, зависящей от контекста конкретного проекта. Например, одна функциональная возможность может быть описана в требованиях как бизнес-операция, в технической документации – как метод API, а в тестовой документации – как сценарий проверки. При использовании традиционного поиска по точному совпадению слов подобная неоднородность может приводить к тому, что релевантная информация остаётся вне поисковой выдачи.

Традиционные поисковые механизмы, основанные на лексическом сопоставлении, хорошо работают в ситуациях, когда пользователь заранее знает точное название сущности, код ошибки, идентификатор функции или устойчивую формулировку. Однако при исследовательском поиске, когда пользователь формулирует запрос естественным языком или не знает точного термина, возможностей лексического поиска может быть недостаточно. В отличие от него, семантический поиск ориентирован на обработку контекста и смысла запроса, что делает его применимым при работе с неоднозначными, неполными или вариативными формулировками [2].

В связи с этим перспективным направлением повышения доступности информации в программно-технической документации является применение технологий Text Mining. Под Text Mining понимается технология получения информации из неструктурированных текстовых данных путём их преобразования в структурированные данные, пригодные для последующей машинной обработки [3]. Иными словами, Text Mining позволяет рассматривать текст не только как набор символов и слов, но и как источник знаний, который может быть подвергнут автоматизированному анализу.

В общем виде применение Text Mining предполагает предварительную обработку текстовых данных, выделение значимых элементов, преобразование текста в формализованное представление и последующую интерпретацию полученных результатов. К типовым задачам Text Mining относятся категоризация, кластеризация, извлечение сущностей, тематическое индексирование, аннотирование, изучение частотных распределений слов и поиск по ключевым словам. В контексте программно-технической документации эти задачи могут быть адаптированы для выявления ключевых разделов, поиска связанных фрагментов, определения часто используемых терминов и анализа пользовательских обращений к документам.

Особое значение в развитии Text Mining имеют технологии обработки естественного языка. Обработка естественного языка, или NLP, рассматривается как область искусственного интеллекта, направленная на обучение компьютерных систем пониманию человеческого языка, включая контекст и намерение пользователя [4]. Для работы с программно-технической документацией это особенно важно, поскольку пользовательские запросы часто формулируются не в виде точных терминов, а в виде описания проблемы, задачи или ожидаемого действия.

Применение технологий Text Mining к программно-технической документации можно представить как последовательность этапов. Сначала исходный документ преобразуется в текстовую форму, пригодную для машинной обработки. Затем выполняется очистка и нормализация текста, удаление незначимых элементов и разбиение документа на отдельные смысловые фрагменты. После этого текстовые фрагменты могут быть проиндексированы, классифицированы или преобразованы в представления, позволяющие выполнять поиск не только по совпадению слов, но и по смысловой близости.

Одним из практических направлений применения Text Mining является интеллектуальный поиск. В отличие от поиска подстроки, который выявляет только точные совпадения символов, интеллектуальный поиск ориентирован на более глубокую обработку запроса и содержания документа. Он может учитывать контекст, близость терминов, смысловую связь между формулировками и специфику предметной области. Это позволяет повысить доступность информации, поскольку пользователь получает возможность находить нужные сведения даже в тех случаях, когда его запрос не совпадает дословно с текстом документа.

Важно отметить, что интеллектуальный поиск не следует рассматривать только как замену классических поисковых механизмов. В ряде случаев лексический поиск остаётся полезным, особенно при работе с точными техническими обозначениями, идентификаторами, кодами ошибок или названиями объектов. Поэтому наиболее рациональным направлением является сочетание лексических и семантических подходов. Лексический поиск обеспечивает точность при известных формулировках, а семантический – расширяет возможности поиска при неоднозначных или естественно-языковых запросах [2].

Применение Text Mining также создаёт основу для последующей аналитической обработки пользовательской активности. Поисковые запросы, выбранные пользователем фрагменты, часто используемые формулировки и обращения к определённым разделам документации могут быть сохранены и использованы для выявления информационных потребностей сотрудников. Такая аналитика позволяет определить наиболее востребованные темы, обнаружить разделы документации, вызывающие затруднения, а также выявить повторяющиеся запросы, которые могут указывать на недостаточную полноту или неудачную структуру материалов.

В данном контексте доступность информации понимается не только как наличие документа в корпоративной системе, но и как возможность быстро обнаружить, интерпретировать и применить нужный фрагмент в конкретной рабочей ситуации. Документация может быть формально доступна пользователю, однако при большом объёме, сложной структуре и терминологической неоднородности фактический доступ к содержащимся в ней знаниям остаётся затруднённым. Text Mining позволяет уменьшить этот разрыв за счёт преобразования текстовых массивов в более удобную для поиска и анализа форму.

Таким образом, применение технологий Text Mining является важным направлением развития средств работы с программно-технической документацией. Данный подход позволяет рассматривать документацию не как статичный набор файлов, а как динамический источник корпоративных знаний, пригодный для машинной обработки, интеллектуального поиска и аналитической интерпретации.

Список литературы:

«Техническая документация – что это, виды, разработка документации на программное обеспечение». Практикум Блог [Электронный ресурс] – https://practicum.yandex.ru/blog/kak-pisat-dokumentaciyu-k-programmnomu-obespecheniyu/ – Режим доступа: свободный. Дата обращения: 21.05.2026 г.
«Lexical Search vs. Semantic Search: Understanding the Differences and Use Cases». ManticoreSearch [Электронный ресурс] – https://manticoresearch.com/ru/blog/lexical-search-vs-semantic-search/ – Режим доступа: свободный. Дата обращения: 21.05.2026 г.
«Text Mining». Loginom Вики [Электронный ресурс] – https://wiki.loginom.ru/articles/text-mining.html – Режим доступа: свободный. Дата обращения: 22.05.2026 г.
«Обработка естественного языка (NLP)». Yandex Cloud [Электронный ресурс] – https://yandex.cloud/ru-kz/docs/glossary/nlp – Режим доступа: свободный. Дата обращения: 22.05.2026 г.