Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: Научного журнала «Студенческий» № 22(318)

Рубрика журнала: Информационные технологии

Библиографическое описание:
Аден Н.А. ИСПОЛЬЗОВАНИЕ МЕТОДОВ ПАРСИНГА ДЛЯ СОЗДАНИЯ КОРПУСА НАЦИОНАЛЬНОГО КАЗАХСКОГО ЯЗЫКА // Студенческий: электрон. научн. журн. 2025. № 22(318). URL: https://sibac.info/journal/student/318/380692 (дата обращения: 23.06.2025).

ИСПОЛЬЗОВАНИЕ МЕТОДОВ ПАРСИНГА ДЛЯ СОЗДАНИЯ КОРПУСА НАЦИОНАЛЬНОГО КАЗАХСКОГО ЯЗЫКА

Аден Нурсултан Азаматулы

магистрант 1 курса, Университет Туран,

Казахстан, г. Алматы

Мамбетов Сакен Төлегенулы

научный руководитель,

директор Высшей школы информационных технологий, Университет Туран,

Казахстан, г. Алматы

АННОТАЦИЯ

В эпоху стремительного развития искусственного интеллекта и больших языковых моделей (LLM) доступность качественных текстовых данных на национальных языках становится критически важной. Несмотря на успехи в обработке английского, китайского и других распространённых языков, казахский язык по-прежнему остаётся малоресурсным и зачастую игнорируется многими глобальными платформами. Это создает барьер для интеграции казахского языка в современные цифровые технологии. В данной работе предлагается подход к автоматизированному сбору текстовых данных на казахском языке с использованием инструментов веб-парсинга и API. С применением таких библиотек, как BeautifulSoup, Selenium и Requests, осуществляется извлечение текстов с различных интернет-ресурсов, которые затем сохраняются в формате JSON и публикуются в открытом доступе. Созданный корпус может быть использован в исследованиях, связанных с обучением LLM, машинным переводом, анализом текста и другими задачами в области обработки естественного языка. Работа направлена на сокращение цифрового разрыва и поддержку развития ИИ на казахском языке.

ABSTRACT

In the era of rapid development of artificial intelligence and large language models (LLM), the availability of high-quality text data in national languages ​​is becoming critical. Despite the success in processing English, Chinese and other common languages, the Kazakh language still remains low-resource and is often ignored by many global platforms. This creates a barrier to the integration of the Kazakh language into modern digital technologies. In this paper, we propose an approach to automated collection of text data in the Kazakh language using web parsing tools and APIs. Using libraries such as BeautifulSoup, Selenium and Requests, texts are extracted from various Internet resources, which are then saved in JSON format and published in the public domain. The created corpus can be used in research related to LLM training, machine translation, text analysis and other tasks in the field of natural language processing. The work is aimed at reducing the digital divide and supporting the development of AI in the Kazakh language.

 

Ключевые слова: казахский язык, корпус текстов, веб-парсинг, искусственный интеллект, NLP, LLM, JSON, BeautifulSoup, Selenium, малоресурсный язык, открытые данные.

Keywords: kazakh language, text corpus, web parsing, artificial intelligence, NLP, LLM, JSON, BeautifulSoup, Selenium, low-resource language, open data.

 

Введение

В последние годы искусственный интеллект (ИИ) и технологии обработки естественного языка (NLP) стремительно развиваются и внедряются в различные сферы жизни — от цифровых помощников до систем автоматического перевода и генерации текста. Однако несмотря на быстрый прогресс в области многоязычных языковых моделей, такие как ChatGPT, Google Bard*(По требованию Роскомнадзора информируем, что иностранное лицо, владеющее информационными ресурсами Google является нарушителем законодательства Российской Федерации – прим. ред.), Gemini и другие, поддержка казахского языка до сих пор остается ограниченной как по качеству, так и по объему обучающих данных. Одной из ключевых проблем, препятствующих полноценному включению казахского языка в ИИ-системы, является нехватка цифровых текстов в открытом доступе. В частности, отсутствует полноценно аннотированный и машиночитаемый корпус казахского языка, охватывающий различные стили, тематики и источники. Именно корпусные данные служат основой для обучения языковых моделей, что делает их наличие критически важным для развития интеллектуальных систем на казахском языке.

Настоящая статья посвящена созданию открытого корпуса казахского языка с использованием современных методов парсинга веб-контента и API-интерфейсов. В работе рассматриваются библиотеки и инструменты, такие как BeautifulSoup, Selenium, requests и другие, применяемые для извлечения текстов с казахстанских информационных порталов, блогов, новостных сайтов и других онлайн-ресурсов. Полученные тексты структурируются в формате JSON и сохраняются в открытом репозитории (например, GitLab) для дальнейшего использования в исследовательских и инженерных целях. Создание такого корпуса позволит заложить фундамент для разработки языковых моделей, систем машинного перевода, орфографических корректоров и других цифровых инструментов, ориентированных на казахский язык. Кроме того, проект направлен на продвижение принципов открытых данных и цифрового суверенитета, укрепляя позиции казахского языка в глобальном цифровом пространстве.

Методология

Создание корпуса национального казахского языка основано на применении современных методов автоматизированного сбора и обработки текстовой информации с различных открытых интернет-ресурсов. В качестве источников используются новостные сайты, блоги, форумы и другие площадки с контентом на казахском языке, что позволяет собрать разнообразные и релевантные тексты. Для извлечения данных применяются библиотеки BeautifulSoup, Selenium и Requests. BeautifulSoup эффективно справляется с обработкой статических страниц, обеспечивая парсинг HTML-разметки, тогда как Selenium позволяет работать с динамическими страницами, которые загружаются через JavaScript, а Requests используется для получения информации через API в формате JSON.

 

     

Рисунок 1. Этапы процесса веб-парсинга

 

После получения исходных данных проводится их предварительная очистка — удаляются HTML-теги, скрипты, стили, рекламные элементы и прочие шумы, снижающие качество корпуса [1]. Также применяется языковая фильтрация, чтобы исключить тексты на других языках и сохранить исключительно казахскоязычный контент. Тексты нормализуются: корректируются кодировки, удаляются лишние пробелы и специальные символы, а большие текстовые блоки разбиваются на предложения и абзацы для удобства дальнейшей обработки и анализа [2].

Для хранения собранных данных используется формат JSON, который позволяет сохранять тексты вместе с метаданными — информацией об источнике, дате публикации, URL и языке текста. Такая структура обеспечивает удобный доступ к данным и их эффективное использование в задачах обработки естественного языка (NLP) [3]. Процесс сбора данных автоматизирован посредством периодического запуска скриптов, что обеспечивает регулярное обновление корпуса свежими текстами. При этом применяются методы обхода ограничений сайтов, такие как ротация прокси и введение задержек между запросами, для предотвращения блокировок и обеспечения стабильности парсинга.

Заключение

В данной работе была рассмотрена и реализована система по созданию корпуса казахскоязычных текстов. Основная цель заключалась в автоматизации процесса сбора, очистки и хранения текстов с открытых интернет-источников. В результате была разработана методология, обеспечивающая получение качественных текстовых данных: произведена очистка HTML-страниц от лишнего контента, реализована языковая фильтрация, нормализация текстов и их структурирование в формате JSON с сохранением метаданных.

Процесс сбора данных автоматизирован с применением прокси и задержек между запросами, что позволило добиться устойчивости и регулярного пополнения корпуса. Итоговый корпус пригоден для использования в задачах обработки казахского языка, таких как обучение моделей машинного перевода, морфологического анализа, генерации текста и других NLP-приложений.

Результаты работы создают прочную базу для дальнейших исследований и технологического развития в области казахскоязычных цифровых ресурсов. В будущем возможно расширение системы за счёт добавления новых источников, аннотирования данных и интеграции в языковые модели.

 

Список литературы:

  1. Jurafsky, D., & Martin, J. H. (2020). Speech and Language Processing. Pearson.
  2. Bird, S., Klein, E., & Loper, E. (2009). Natural Language Processing with Python. O’Reilly Media.
  3. Korpela, J. (2021). Data Formats for Natural Language Processing. ACM.

Оставить комментарий