Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: CXIV Международной научно-практической конференции «Экспериментальные и теоретические исследования в современной науке» (Россия, г. Новосибирск, 30 июня 2025 г.)

Наука: Филология

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Астрамецкий В.С. СПЕЦИФИКА РАЗВИТИЯ СОВРЕМЕННОЙ КОРПУСНОЙ ЛИНГВИСТИКИ В КИТАЕ // Экспериментальные и теоретические исследования в современной науке: сб. ст. по матер. CXIV междунар. науч.-практ. конф. № 6(106). – Новосибирск: СибАК, 2025. – С. 76-80.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

СПЕЦИФИКА РАЗВИТИЯ СОВРЕМЕННОЙ КОРПУСНОЙ ЛИНГВИСТИКИ В КИТАЕ

Астрамецкий Владислав Сергеевич

ст. преп., соискатель кафедры теории и практики китайского языка, УО «Минский государственный лингвистический университет»,

Республика Беларусь, г. Минск

SPECIFICS OF DEVELOPMENT OF MODERN CORPUS LINGUISTICS IN CHINA

 

Uladzislav Astrametski

Senior Tutor, Degree-Seeking Applicant of the Department of Chinese Theory and Practice Minsk State Linguistic University

Belarus, Minsk

 

АННОТАЦИЯ

В статье анализируется история развития современной корпусной лингвистики в Китае; рассматриваются крупнейшие современные лингвистические корпусы китайского языка; выявляется специфика функционирования лингвистических корпусов как современного исследовательского инструментария в области китаистики.

ABSTRACT

The article analyzes the history of development of modern corpus linguistics in China; considers the largest modern linguistic corpora of the Chinese language; identifies the specifics of functioning of linguistic corpora as a modern research tool in the field of Sinology.

 

Ключевые слова: лингвистика; корпусная лингвистика; функции лингвистических корпусов; китайские языковые корпусы; китайский язык.

Keywords: linguistics; corpus linguistics; functions of linguistic corpora; Chinese language corpora; Chinese language.

 

Разработка и создание лингвистических корпусов, позволяющих оптимизировать исследование текстов на национальных языках, ведётся в разных странах уже несколько десятилетий. Китайские корпусы создаются и используются для сравнительных исследований языков (в области лексикологии, грамматики, стилистики и т. д.) [4, с. 27] и, кроме того, их разработка посвящена целям эффективного изучения китайской лексики. Под лингвистическим корпусом мы понимаем «совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой» [5, с. 325]. Активная динамика становления присуща китайскоязычной корпусной лингвистике в такой же высокой степени, как и развитие лингвистического корпуса американского, российского и западноевропейского языкознания. Китайский язык отличают от европейских языковых систем специфичные средства и способы образования.

Основы исследований лингвистических корпусов были заложены китайскими учёными ещё в 20-е гг. XX века, так как практика унифицированного агрегирования китайскоязычных текстов по разным признакам совокупности была достаточно хорошо известна задолго до появления компьютеров. Одной из основных предпосылок её формирования послужила очевидная эффективность данной практики при изучении частоты употребления языковых единиц в речевой практике. Основным стандартом в построение лингвистического корпуса китайского стала совместимость типов разметки и сегментации, которые «должны базироваться на некоторых достаточно широко распространённых и общепринятых принципах описания текстов и языковых единиц» [1, с. 52]. Сложность работы с корпусом обусловлена такой особенностью китайского языка, как отсутствие пробелов между иероглифами на письме, что затрудняет разбивку текста на слова. «В то же время из-за отсутствия показателей категорий числа, падежа и рода в китайском языке нет согласования, следовательно, функция слова в китайском языке становится понятной не на основании формы слова, а благодаря его связи с другими словами» [3, с. 47].

Прообразом корпусов китайского языка можно с полным основанием считать «Сборник текстов для изучения единиц разговорного стиля языка» 语体文应用字汇, созданный в 1922 году. Проводя исследования в области лингводидактики относительно статистических данных языкового массива, китайский учёный Чэнь Хэцинь (陈鹤琴) составил в 1925 году «Список прикладных иероглифов Байхуа», включив в него 4261 базовых иероглифа, полученных в процессе обработки около 550 тыс. иероглифических знаков. Исследование, осуществлённое Чэнь Хэцинем, содержало фактическое подтверждение того, что наибольшей частотностью обладают служебные единицы языка.

В конце 70-х гг. XX века в Китае появились первые машиночитаемые корпусы, среди которых наиболее существенными разработками считались: Корпус современной литературы китайского языка (Уханьский университет, 1979); Корпус современного китайского языка (Пекинский университет авиации и космонавтики, 1983); Корпус школьных учебников по филологии (Пекинский педагогический университет, 1983); Корпус частотности слов современного китайского языка (Пекинский институт языков, 1983). На основании полученных результатов исследований данного корпуса был составлен «Частотный словарь современного китайского языка» (1986).

С конца 80-х – середины 90-х гг. в прикладной лингвистике наступил качественно новый этап – создание электронных текстовых ресурсов и активизация корпусных исследований. Система корпусного инструментария начала активно разрабатываться учёными в ведущих университетах КНР, в тайваньских и гонконгских институтах, а также за рубежом. Конкретные результаты китайских исследователей, направленные на создание системы национальных корпусов, стали очевидны в 1982 году, когда начались серьёзные разработки электронной базы китайских текстов. Важнейшими из них можно назвать: Корпус общего современного китайского языка; Корпус «Center for Chinese Linguistics PKU» (далее – CCL); Корпус «BLCU Corpus Center» (далее – BCC); «Sinica Corpus» (далее корпус Синика); Онлайн-корпус китайского языка; Сбалансированный корпус китайского языка; The Chinese PropBank и The Chinese Nombank.

Комбинаторные характеристики знаков китайского языка возможны к изучению посредством корпусов синтаксического типа: the Chinese PropBank8 (аннотированный корпус глаголов китайского языка), the Chinese Nombank (корпус, позволяющий исследовать построение предикатно-аргументных структур). Оба корпуса ориентированы на семиотическую характеристику китайского текста.

Названные лингвистические корпусы имеют собственную специфику и конкретное предназначение и обеспечивают корпусную поддержку исследования китайского языка. Целью этих универсальных корпусов языка, сопровождаемых глубокой аннотацией и высокой репрезентативностью, является объективное отображение тенденций речевой практики. Кроме того, «использование корпуса текстов многократно повышает не только эффективность и скорость обработки языковых данных, но и их достоверность [2, с. 25]. Рассмотрим подробнее основные характеристики китайскоязычных корпусов.

1) Корпус общего современного китайского языка. В 1991 г. Комитет по работе в области языка и письменности Китая начал создавать масштабный корпус китайского языка на государственном уровне, чтобы способствовать теоретическим исследованиям китайского языка, оптимизации его преподавания, одновременно и предоставить ресурсы для его компьютерной обработки. На данный момент общий объём корпуса составляет 100 млн единиц, в том числе - языковой материал 1919–1997 гг. в объёме 70 млн знаков с ручным набором, а также материал 1997–2002 гг. – 30 млн знаков.

2) К разработке корпуса CCL в 2000 году приступили несколько исследовательских центров Пекинского университета. Его составными частями стали Корпус современного китайского языка (600 млн. языковых единиц, в том числе 500 млн. иероглифов), Корпус древнекитайского языка (200 млн. языковых единиц, в том числе 163,7 млн. иероглифов) и Параллельный китайско-английский корпус (233,6 тыс. предложений (оригинал и его перевод), около 6 млн. иероглифов и 4 млн. английских слов).

3) Корпусный центр при Пекинском университете языка и культуры (BLCU Corpus Center сокр. BCC) является крупнейшим корпусом китайского языка в мире. Его объём составляет 15 млрд иероглифов, в том числе – языковой материал газет (2 млрд), художественной литературы (3 млрд), социальной сети Weibo (3 млрд), науки и техники (3 млрд), общекитайского языка (1 млрд), древнекитайского языка (2 млрд) и других сфер. Все разделы корпуса приняты в работу в 2014 г., а его подкорпус HSK запустили в эксплуатацию еще в 2007 г. BCC представляет собой масштабный корпус, всесторонне отражающий состояние современного китайского языка, однако требующий самостоятельной выборки подкорпусов в связи с многообразием его материала.

4). Корпус Синика – сбалансированный корпус современного китайского языка, созданный сотрудниками Академии Синика на Тайване, который представляет собой аннотированный корпус с частеречной разметкой.

5) Онлайн-корпус китайского языка является одним из наиболее показательных достижений китайской корпусной лингвистики. Он был создан Министерством образования КНР в 2010 г. На данный момент Онлайн-корпус китайского языка характеризуется целым рядом функциональных возможностей, позволяющих извлекать метаязыковую информацию, в том числе грамматико-графическую аннотацию, латинизированную транскрипцию иероглифов и статистическую «выдачу».

6) Революционным шагом в развитии корпусной лингвистики Китая стало создание Сбалансированного корпуса китайского языка, который представлен не примитивным текстовым форматом, а имеет лингвистическую разметку, позволяющую осуществлять поиск по морфологическим признакам словоформ. Этот представительный корпус, созданный по заказу Государственного Комитета по работе в области языка и письменности Китая, включает в себя два подкорпуса: около 13 млн. слов для корпуса современного языка и около 100 млн. иероглифов для лингвистического корпуса древних текстов. Корпус снабжён частеречной разметкой, которая включает: указание на часть речи; признаки грамматических категорий, свойственных в китайском языке данному лексико-грамматическому классу. Создавая этот корпус, учёные снабдили схему морфологической разметки набором тэгов для 13 классов слов первого уровня (一级) и 16 подклассов (二级. Для китайских идиом, аббревиатур и отдельных морфем в данном корпусе предусмотрена отдельная разметка.

7) С развитием компьютерных технологий в китайской лингвистике получили развитие корпусы синтаксического типа, направленные на синологические исследования комбинаторных характеристик китайского языка: The Chinese PropBank (аннотированный корпус китайских глаголов); The Chinese Nombank (корпус для осуществления синтаксического и семантического анализа китайского текста и построение предикатно-аргументных структур).

Таким образом, ранние корпусы китайского языка были разработаны преимущественно для определения частотности иероглифа в целях оптимизации преподавания китайского языка. У более поздних образцов китайскоязычных корпусов, прошедших исключительно интенсивный период развития, для осуществления исследований языка появился более функциональный инструментарий и способность предлагать программное обеспечение, способствующее быстрому поиску лингвистической информации.

 

Список литературы:

  1. Захаров, В. П. Корпусная лингвистика / В. П. Захаров, С. Ю. Богданова. – Иркутск: ИГЛУ, 2011. – 52 с.
  2. Зубов, А. В. Корпусная лингвистика: возможности и перспективы / А. В. Зубов // Междунар. науч. конф. – Минск, 6-7 апреля 2006. – С. 22–27.
  3. Кочергин, И. В. Очерки лингводидактики китайского языка / И. В. Кочергин. – М.: Восточная книга, 2012. – 47 с.
  4. Лу, Исинь. Принципы создания корпусов китайского языка / Исинь Лу // Известия Российского государственного педагогического университета им. А. И. Герцена, 2016. – № 181. – С. 22–29.
  5. Перцов, Н. В. О роли корпусов в лингвистических исследованиях / Н. В. Перцов // Труды международной конференции «Корпусная лингвистика-2006». – СПб.: Изд-во С-Петерб. ун-та, 2006. – С. 318–331.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий