Статья опубликована в рамках: CLXII Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 04 июня 2026 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Быков Д.Э. ИСПОЛЬЗОВАНИЕ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ ДЛЯ ИЗВЛЕЧЕНИЯ СТРУКТУРИРОВАННЫХ ДАННЫХ ИЗ ВЕБ-ИНТЕРФЕЙСОВ ИНФОРМАЦИОННЫХ СИСТЕМ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. CLXII междунар. студ. науч.-практ. конф. № 6(160). URL: https://sibac.info/archive/technic/6(160).pdf (дата обращения: 25.07.2026)

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

ИСПОЛЬЗОВАНИЕ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ ДЛЯ ИЗВЛЕЧЕНИЯ СТРУКТУРИРОВАННЫХ ДАННЫХ ИЗ ВЕБ-ИНТЕРФЕЙСОВ ИНФОРМАЦИОННЫХ СИСТЕМ

Быков Денис Эдуардович

магистрант, Кафедра информационных технологий, искусственного интеллекта и общественно-социальных технологий цифрового общества, Российский государственный социальный университет (РГСУ),

РФ, г. Москва

АННОТАЦИЯ

Статья посвящена сравнительному анализу традиционных методов извлечения данных из веб-страниц и подходов, основанных на применении больших языковых моделей (LLM). Рассматривается проблема хрупкости селекторных парсеров при изменении структуры веб-интерфейсов, анализируются альтернативные подходы к извлечению структурированных данных — от обёрточных методов до LLM-агентов, способных семантически интерпретировать содержимое DOM. На основе данных недавних сравнительных тестирований проводится количественное сравнение методов по точности, устойчивости и затратам ресурсов. Показано, что при работе с динамическими и защищёнными веб-интерфейсами LLM-подходы демонстрируют значительное преимущество, тогда как для статичных страниц традиционные парсеры остаются более эффективными с точки зрения скорости выполнения.

Ключевые слова: большие языковые модели, автоматизированный сбор данных из веб-страниц, извлечение структурированных данных, обёрточные методы, информационные системы.

Введение

Автоматизированный сбор данных из веб-интерфейсов информационных систем представляет собой одну из ключевых задач в области извлечения информации. По данным аналитического агентства Mordor Intelligence, объём мирового рынка инструментов автоматизированного сбора данных из веб-страниц составил 1,03 млрд долларов США в 2025 году, а к 2030 году прогнозируется рост до 2,23 млрд [1]. Сегмент решений на базе искусственного интеллекта развивается ещё более высокими темпами: по оценке Technavio, среднегодовой темп роста этого направления достигает 39,4% в период с 2024 по 2029 год [2]. Такой рост обусловлен потребностью предприятий в автоматизированном сборе информации из разнородных и постоянно меняющихся веб-источников.

Традиционные методы извлечения данных из HTML-страниц основаны на использовании селекторов — XPath-выражений или CSS-селекторов, привязанных к конкретной структуре DOM целевого веб-ресурса. Несмотря на широкое распространение библиотек BeautifulSoup и Scrapy, эти подходы обладают существенным недостатком: любое изменение вёрстки страницы приводит к нарушению работы парсера. По данным отраслевых исследований, на поддержание и обновление селекторов расходуется от 40 до 60% рабочего времени инженеров, занятых разработкой программ для извлечения данных [3].

Появление больших языковых моделей открывает принципиально иную возможность: вместо привязки к структурным элементам разметки модель может семантически интерпретировать содержимое веб-страницы и извлекать данные по заданной схеме, ориентируясь на смысл, а не на расположение элементов. Данный подход потенциально обладает значительно большей устойчивостью к изменениям вёрстки, однако его применение сопряжено с более высокими вычислительными затратами.

Целью настоящей работы является сравнительный анализ традиционных методов и подходов на основе LLM для извлечения структурированных данных из веб-интерфейсов, а также оценка области применимости каждого из подходов.

Традиционные методы извлечения данных из веб-интерфейсов

Селекторные парсеры и обёрточные методы

Исторически первым и наиболее распространённым подходом к автоматизированному извлечению данных из веб-страниц является использование обёрточных методов. Обёртка представляет собой набор правил, определяющих, какие элементы DOM-дерева содержат целевую информацию. Правила задаются в виде XPath-выражений или CSS-селекторов, которые указывают точный путь к нужному элементу в иерархии HTML-документа.

Различают несколько поколений обёрточных методов. Ранние подходы основывались на ручном конструировании правил [4]. Впоследствии появились методы автоматической индукции обёрток, использующие машинное обучение для генерации правил извлечения по размеченным примерам [5, 6]. Дальнейшее развитие привело к созданию эвристических алгоритмов, учитывающих визуальное расположение элементов [7], и нейросетевых моделей (FreeDOM, SimpDOM, MarkupLM, WebFormer), кодирующих текстовые и структурные признаки DOM-узлов [8, 9, 10, 11].

Общей чертой всех обёрточных методов является зависимость от структурных особенностей конкретного веб-ресурса. При изменении вёрстки — обновлении CSS-классов, перестановке элементов, переходе на другой фреймворк — обёртка перестаёт функционировать корректно. Данная проблема усугубляется тем, что современные веб-приложения всё чаще используют динамическую загрузку контента через JavaScript, что делает невозможным получение полной структуры страницы без выполнения скриптов.

Инструменты автоматизации браузера

Для работы с динамическими веб-страницами применяются инструменты автоматизации браузера — Selenium и Playwright. Эти решения позволяют эмулировать действия пользователя: выполнять JavaScript-код, проходить авторизацию, взаимодействовать с элементами интерфейса. Однако их интеграция с селекторными парсерами увеличивает сложность разработки и время выполнения: согласно результатам сравнительного тестирования программ для извлечения данных из веб-страниц [12], время обработки одной страницы через headless-браузер составляет от 10 до 20 секунд, что на порядок превышает время работы простого HTTP-запроса с последующим парсингом HTML.

Подходы на основе больших языковых моделей

Прямая экстракция через LLM

Большие языковые модели способны воспринимать текстовое содержимое HTML-документа и извлекать из него структурированные данные по заданному текстовому описанию. Модель получает очищенный от служебных тегов HTML или текстовое представление страницы и формирует ответ в формате JSON, соответствующий заранее определённой схеме.

В исследовании LLMStructBench по оценке структурированного извлечения данных [13] проведена систематическая оценка способности 22 языковых моделей извлекать структурированные данные из текста естественного языка и генерировать корректный JSON. Одним из ключевых выводов исследования стало то, что выбор стратегии формирования запросов к модели оказывает более существенное влияние на качество извлечения, чем размер модели. При правильно подобранной стратегии даже модели среднего размера способны обеспечивать высокую структурную валидность выходных данных.

LLM-агенты для автономного сбора данных

Более развитый подход предполагает использование LLM в качестве автономного агента, способного взаимодействовать с веб-страницей аналогично человеку: читать содержимое, нажимать кнопки, заполнять формы, проходить авторизацию. В исследовании «Beyond BeautifulSoup» [12] проведено сравнительное тестирование двух типов LLM-рабочих процессов на 35 веб-сайтах пяти категорий сложности:

1. Вспомогательное скриптостроение — модель генерирует код на Python с использованием BeautifulSoup или Scrapy, а пользователь запускает его вручную.

2. Автономный LLM-агент — агент выполняет все действия от навигации до извлечения данных без участия пользователя.

Результаты показали принципиально разную картину в зависимости от сложности целевого сайта (табл. 1).

Таблица 1.

Доля успешных извлечений по категориям сложности, % [12]

Категория сайтов	BeautifulSoup	Scrapy	Claude (агент)	Simular.ai
Простой HTML	93	82	100	100
Сложный HTML	80	20	57	100
Простая авторизация	—	—	20	63
Сложная авторизация	—	—	12	70
CAPTCHA	—	—	5	10

Для статичных страниц BeautifulSoup демонстрирует высокую долю успешных извлечений, однако при появлении авторизации или динамического контента селекторные инструменты полностью теряют работоспособность. Автономные агенты справляются с авторизацией, однако на сайтах с защитой по CAPTCHA даже лучший из них (Simular.ai) достигает лишь 10% успеха, что свидетельствует о существовании границы применимости LLM-подходов.

Генерация программ для извлечения данных с помощью LLM

Промежуточное положение между прямой экстракцией и автономными агентами занимает подход, при котором LLM генерирует повторно используемую программу для извлечения данных — набор XPath-выражений, пригодный для многократного применения на страницах одного сайта. В работе AutoScraper по генерации программ для извлечения данных из веб-страниц на основе LLM [14] предложен фреймворк, состоящий из двух этапов: прогрессивной генерации — поэтапный обход DOM-дерева сверху вниз с пошаговым уточнением XPath, и синтеза — объединение результатов с нескольких эталонных страниц для повышения устойчивости.

В экспериментах на наборе данных Swde AutoScraper с моделью GPT-4-Turbo достиг значения F1 = 88,69 в режиме без обучающих примеров, что превосходит все методы обучения с учителем, включая WebFormer (86,58) (табл. 2). Важной особенностью фреймворка является возможность повторного использования сгенерированной программы: пороговое число страниц, при котором AutoScraper становится эффективнее прямой LLM-экстракции, составляет в среднем 19,5 страниц на один сайт.

Таблица 2.

Сравнение методов извлечения данных на наборе данных Swde [14]

Метод	F1
Render-Full [7]	84,30
FreeDOM [8]	82,32
SimpDOM [9]	83,06
MarkupLM [10]	84,31
WebFormer [11]	86,58
Reflexion + GPT-4-Turbo	82,40
AutoScraper + GPT-4-Turbo	88,69

Сравнительный анализ

Рассмотренные подходы к извлечению структурированных данных из веб-интерфейсов образуют спектр решений, различающихся по устойчивости к изменениям вёрстки, скорости работы, вычислительной стоимости и области применимости.

Статичные страницы с предсказуемой структурой. Для извлечения данных из страниц с простой и стабильной HTML-разметкой традиционные инструменты (BeautifulSoup, Scrapy) остаются оптимальным выбором. Согласно результатам сравнительного тестирования программ, для извлечения данных из веб-страниц [12], они обеспечивают точность до 93% при времени выполнения менее 2 секунд на страницу. Автономные LLM-агенты достигают 100% точности на тех же страницах, однако время выполнения возрастает до 10–20 секунд за счёт накладных расходов на запуск браузера и работу модели.

Динамические страницы с авторизацией. При необходимости работы с защищёнными веб-интерфейсами, требующими авторизации и выполнения JavaScript, селекторные инструменты оказываются неприменимы. Автономные LLM-агенты, напротив, способны проходить авторизацию, взаимодействовать с динамическим контентом и извлекать данные: в исследовании «Beyond BeautifulSoup» [12] агент Simular.ai продемонстрировал 70% успеха на сайтах со сложной аутентификацией.

Массовая экстракция с повторным использованием. При необходимости извлечения данных из десятков и сотен страниц одного сайта целесообразно применение подхода генерации программ для извлечения данных (AutoScraper). Затраты на однократную генерацию XPath-правил окупаются при обработке в среднем 19–20 страниц, после чего каждый последующий запрос выполняется за 0,2–0,5 секунды без обращения к LLM, что подтверждается анализом эффективности в работе AutoScraper [14].

Устойчивость к изменению вёрстки. Принципиальное преимущество LLM-подходов заключается в семантической, а не структурной привязке к данным. Модель извлекает информацию по смыслу, ориентируясь на текстовое содержание элементов, а не на их расположение в DOM-дереве. Это снижает зависимость от конкретной реализации вёрстки и уменьшает объём работ по поддержанию парсера в рабочем состоянии. По данным ScrapeGraphAI [15], применение LLM позволяет сократить расходы на поддержку на 70%.

Вместе с тем необходимо отметить ограничения LLM-подходов. Во-первых, текущие модели демонстрируют существенный разброс качества извлечения в зависимости от выбранной модели и стратегии формирования запросов: если GPT-4-Turbo в связке с AutoScraper достигает F1 = 88,69, то меньшие модели (Phi-3-medium, CodeLlama) показывают результаты на уровне 17–35, что следует из экспериментальных данных работы AutoScraper [14]. Это накладывает требование на выбор модели, соизмеримой по качеству с флагманскими решениями. Во-вторых, выполнение запросов к LLM требует значительных вычислительных ресурсов, что может быть ограничением при работе в условиях ограниченного бюджета или необходимости локального развёртывания. В-третьих, как показано в исследовании методов противодействия LLM-программам для извлечения данных [16], веб-ресурсы могут применять специализированные методы защиты, включающие внедрение в разметку скрытых элементов и динамическую обфускацию, что частично нивелирует преимущество семантического подхода.

Заключение

Проведённый анализ показывает, что подходы к извлечению структурированных данных из веб-интерфейсов на основе больших языковых моделей не являются универсальной заменой традиционным методам, а образуют дополнительный класс решений с собственной областью применимости. Для статичных страниц с простой структурой селекторные парсеры остаются предпочтительными благодаря скорости и низкой ресурсоёмкости. Однако при работе с динамическими, защищёнными и часто обновляемыми веб-интерфейсами информационных систем LLM-подходы демонстрируют значительные преимущества в устойчивости и способности обрабатывать данные, недоступные традиционным инструментам.

Перспективными направлениями дальнейших исследований представляются: разработка гибридных подходов, сочетающих скорость селекторных методов с устойчивостью LLM и оптимизация стратегий формирования запросов для моделей среднего размера с целью снижения вычислительных затрат.

Список литературы:

Web Scraping Market Size, Growth Report, Share & Trends 2026 // Mordor Intelligence. – URL: https://www.mordorintelligence.com/industry-reports/web-scraping-market (дата обращения: 29.05.2026).
AI Driven Web Scraping Market Size 2025–2029 // Technavio. – URL: https://www.technavio.com/report/ai-driven-web-scraping-market-industry-analysis (дата обращения: 01.06.2026).
How Much Does Web Scraping Cost? 2026 Pricing Guide // Tendem AI. – URL: https://tendem.ai/blog/web-scraping-cost-pricing-guide (дата обращения: 02.06.2026).
URL rule based focused crawler / X. Zheng, T. Zhou, Z. Yu, D. Chen // Proc. IEEE Int. Conf. on e-Business Engineering. – 2008. – P. 147–154.
Kushmerick N. Wrapper induction for information extraction : PhD thesis. – University of Washington, 1997.
Web-scale information extraction with vertex / P. Gulhane, A. Madaan, R. Mehta, J. Ramamirtham, R. Rastogi, S. Satpal, S. Sengamedu, A. Tengli, C. Tiwari // Proc. IEEE 27th Int. Conf. on Data Engineering. – 2011. – P. 1209–1220.
From one tree to a forest: a unified solution for structured web data extraction / Q. Hao, R. Cai, Y. Pang, L. Zhang // Proc. 34th Int. ACM SIGIR Conf. – 2011. – P. 775–784.
FreeDOM: a transferable neural architecture for structured information extraction on web documents / B. Lin, Y. Sheng, N. Vo, S. Tata // Proc. 26th ACM SIGKDD. – 2020. – P. 1092–1102.
Simplified DOM trees for transferable attribute extraction from the web / Y. Zhou, Y. Sheng, N. Vo, N. Edmonds, S. Tata // arXiv preprint arXiv:2101.02415. – 2021.
MarkupLM: pre-training of text and markup language for visually rich document understanding / J. Li, Y. Xu, L. Cui, F. Wei // Proc. 60th Annual Meeting of the ACL. – 2022. – P. 6078–6087.
WebFormer: the web-page transformer for structure information extraction / Q. Wang, Y. Fang, A. Ravula, F. Feng, X. Quan, D. Liu // Proc. ACM Web Conference 2022. – 2022. – P. 3124–3133.
Bhardwaj A., Diwan N., Wang G. Beyond BeautifulSoup: Benchmarking LLM-Powered Web Scraping for Everyday Users // arXiv preprint arXiv:2601.06301. – 2026.
Tenckhoff S., Koddenbrock M., Rodner E. LLMStructBench: Benchmarking Large Language Model Structured Data Extraction // arXiv preprint arXiv:2602.14743. – 2026.
AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation / W. Huang, Z. Gu, C. Peng, Z. Li, J. Liang, Y. Xiao, L. Wen, Z. Chen // Proc. EMNLP 2024. – 2024. – P. 2371–2389.
LLM Web Scraping: How AI Models Replace Scrapers // ScrapeGraphAI. – URL: https://scrapegraphai.com/blog/llm-web-scraping (дата обращения: 03.06.2026).
Ghosts in the Markup: Techniques to Fight Large Language Model-Powered Web Scrapers / W. Brach, M. Petrik, K. Košt'ál, M. Ries // Proc. 37th Conf. of Open Innovations Association (FRUCT). – 2025. – P. 37–46.

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников