Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: CXIII Международной научно-практической конференции «Экспериментальные и теоретические исследования в современной науке» (Россия, г. Новосибирск, 28 мая 2025 г.)

Наука: Филология

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Астрамецкий В.С. ЛИНГВИСТИЧЕСКИЙ КОРПУС КАК ИНСТРУМЕНТ ИССЛЕДОВАНИЯ ИНОЯЗЫЧНОЙ ЛЕКСИКИ // Экспериментальные и теоретические исследования в современной науке: сб. ст. по матер. CXIII междунар. науч.-практ. конф. № 5(105). – Новосибирск: СибАК, 2025. – С. 171-177.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

ЛИНГВИСТИЧЕСКИЙ КОРПУС КАК ИНСТРУМЕНТ ИССЛЕДОВАНИЯ ИНОЯЗЫЧНОЙ ЛЕКСИКИ

Астрамецкий Владислав Сергеевич

ст. преп., соискатель кафедры теории и практики китайского языка, УО «Минский государственный лингвистический университет»,

Республика Беларусь, Минск

АННОТАЦИЯ

В статье анализируется понятие «лингвистический корпус», рассматриваемый как инструмент изучения лексики иностранных языков; выявляются возможности системной обработки лексического массива; исследуются основные подходы к классификации корпусов в современной науке.

 

Ключевые слова: лингвистика, корпусная методология, лингвистический корпус; специфика корпусных исследований.

 

Стремительное развитие корпусной лингвистики в современном языкознании обусловило очевидные трансформации в области исследования иноязычной лексики и привело к тому, что «намечаются контуры новой модели языка, которая в ряде существенных отношений отличается от привычных моделей, сложившихся в последней четверти XX века» [6, с. 7–20]. Прибегая к возможностям корпусного инструментария, мы можем решать масштабные задачи изучения и анализа лексических данных иностранного языка, получение которых способно обеспечить доказательность самых смелых научных гипотез. На актуальность обработки иноязычной лексики посредством электронных лингвистических корпусов указывает тот факт, что скрытые в текстах особенности функционирования и взаимосвязи языковых единиц можно «расшифровать» только путём научных исследований и что применение инструментов лингвистического корпуса способно оптимизировать и ускорить их результаты.

Вопросы и задачи, связанные с изучением возможностей корпусных ресурсов в обработке иноязычной лексики, решаются в рамках корпусной лингводидактики, в разработку которой внесли большой вклад учёные отечественных и зарубежных школ: А. Н. Баранов, С. Ю. Богданова, О. Г. Горина, В. П. Захаров, В. В. Рыков, Е. А. Рязанова, С. О. Савчук, П. В. Сысоев, О. В. Нагель, Т. Б. Назарова, В. А. Плунгян, Л. К. Раицкая Е. П. Соснина, С. Браун, Й. Григалюниене, Т. Джонс, Исинь Лу, С. Йохансон, М. Льюс, М. Маккарти, К. Триббл, Э. Финеган, У. Френсис, Юань Тао и др.

Корпусная лингвистика – современный, активно развивающийся раздел языкознания. «В парадигме современных исследований языка корпусная лингвистика выделяется методологической универсальностью и эффективностью» [2, с. 5–13]. Как и любая малоизученная научная область корпусные исследования пока не получили достаточно чёткого определения, и учёные-лингвисты часто расходятся в определении основных характеристик и возможностей работы с языковым корпусом. Самыми ранними образцами больших лингвистических корпусов стали корпусы письменной речи американского и британского вариантов английского языка. В 1963 году в американском Брауновском университете был разработан первый машинный языковой корпус (The Brown Standard Corpus of American English), авторами которого стали У. Френсис и Г. Кучера. Этот корпус включал 500 текстов (по 2000 слов каждый), собранных из книг, газет и журналов США, изданных в 1961 году. Уильям Френсис, один из первых современных исследователей в области лингвистического корпуса, понятию «корпус текстов» дал такое определение: «…собрание текстов, считающееся репрезентативным по отношению к данному языку, диалекту или иной части языка и предназначенное для использования в лингвистических исследованиях» [9, с. 17–32]. Корпус включал большой массив материалов первичной статистической обработки (например, частотный и алфавитно-частотный словари). По такому же принципу учёными Великобритании был создан корпус Ланкастер-Осло-Берген (The Lancaster-Oslo-Bergen Corpus), который также включал 500 разножанровых текстов по 2000 слов жанров. Общее число слов британского варианта английского языка составило 1 миллион. Позже на базе этих двух языковых корпусов были созданы ещё более масштабные корпусные образования.

Говоря о понятии «лингвистический корпус», в данной работе мы берём за основу определение: «совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой» [5]. Однако рассмотрим также некоторые из наиболее актуальных подходов современных учёных к формулировке понятия «лингвистический корпус» («корпус текстов», «языковой корпус» и т. п.). Для современной лингвистики характерен системный исследовательский подход, при котором разносторонний анализ текстовых единиц позволяет «нарисовать» полную картину о состоянии обрабатываемого языкового материала, постоянно развивающегося и трансформирующегося. А. Н. Баранов в своей работе «Корпусная лингвистика» приводит следующее определение корпуса: «Корпус текстов – это вид корпуса данных, единицами которого являются тексты или их достаточно значительные фрагменты, включающие, например, какие-то полные фрагменты макроструктуры текстов данной проблемной области» [1, с. 112–137].

Определение, которое, на наш взгляд, является одним из наиболее глубоких, даёт П. В. Сысоев в своей статье «Лингвистический корпус в методике обучения иностранным языкам», где указывает на корпусную лингвистику как на «раздел языкознания, занимающийся выявлением закономерностей функционирования языка через его анализ и изучение с помощью лингвистического корпуса»; а лингвистический корпус определяет как «массив текстов, собранных в единую систему по определённым признакам (языку, жанру, времени создания текста, автору и т.п.) и снабжённых поисковой системой» [8]. Осуществление поиска в корпусе – это возможность сформировать конкорданс (полный список употреблений исследуемого слова, словосочетания или группы слов со ссылками на источник). П. В. Сысоев определяет конкорданс как «программу, позволяющую анализировать большие массивы текста на предмет обнаружения закономерностей использования в языке слов или выражений» [8]. Определяя возможности исследования текста корпусным инструментарием, лингвист О. Г. Горина указывает, что «наличие корпуса и возможности сбора и обработки больших массивов языковых данных обеспечивает проверяемость гипотез, предположений, выводов» [3, с. 4]. И, таким образом, учёные сходятся во мнении о том, что лингвистический корпус – это совокупность текстов, специально отобранных по различным параметрам и размещённых на электронном носителе.

В современном определении корпусной лингвистики появились новые варианты, содержащие достаточно значимые дополнения. Например, лингвисты В. П. Захаров и С. Ю. Богданова в написанном ими учебнике «Корпусная лингвистика» дают одно из наиболее полных определений данного понятия: «раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с применением компьютерных технологий» [4, с. 234]. Понятие «языковой корпус» учёные определяют, как «большой, представленный в машиночитаемом формате, унифицированный, структурированный, размеченный, филологически компетентный массив языковых знаний, предназначенный для решения конкретных лингвистических задач» [4, с. 234].

Рассматривая корпус как лингвистическое явление, В. П. Захаров и С. Ю. Богданова отмечают, что существуют и другие подходы к его определению. Например, учёные Т. МакЭнери и Э. Вилсон отмечают, что «корпус – это собрание языковых фрагментов, отобранных в соответствии с четкими языковыми критериями для использования в качестве модели языка» [4, с. 234]. Обращаясь к исследованиям отечественных лингвистов В. П. Захаров и С. Ю. Богданова указывают на определение корпуса текстов, которое даёт В. В. Рыков: «некоторое собрание текстов, в основе которого лежит логический замысел, логическая идея, объединяющая эти тексты и воплощённая в правилах организации текстов в корпус, алгоритме и программе анализа корпуса текстов, сопряжённой с этим идеологии и методологии» [7].

При анализе материалов исследований, осуществлённых указанными выше лингвистами, выяснилось, что на современном этапе развития корпусной лингвистики не существует единой классификации корпусов. Это связано, во-первых, с различным пониманием учёными концептуального значения понятия «лингвистический корпус» и, во-вторых, обусловлено разницей в классификационных подходах. Например, учёный С. В. Манукянц, на основании анализа исследований различных определений корпуса лингвистики, создал классификацию, в которой разделяет корпусы по таким основным характеристикам, как моно- или мультимодальность, полнотекстовость или фрагментированность и др.

Наиболее полную, на наш взгляд, классификационную характеристику корпусов дают учёные В. П. Захаров и С. Ю. Богданова, которые отмечают, что языковые корпусы можно разделить на группы по двум основаниям, а затем уже определять более узкую функциональную специфику корпуса: «…1) противопоставление корпусов (корпусы относятся к определённому жанру, стилю, языку определённой профессиональной деятельности и т. д., 2) разделение корпусов по типу лингвистической разметки (морфологической, синтаксической и др.)» [4, с. 234].

Приступая к анализу различных аспектов текста (жанровые или стилистические характеристики, время или эпоха написания, этимология создания текста, сведения об авторе), пользователи электронных лингвистических корпусов могут получить грамотно скомпонованную и логичную базу для обработки иноязычной лексики. «Корпусные исследования незаменимы в компьютерной лингвистике и информационных технологиях, в которых корпусы служат для создания и усовершенствования различных автоматизированных систем, например, машинного перевода, распознавания речи и информационный» поиск [4, с. 234]. Продолжая эту мысль, В. П. Захаров и С. Ю. Богданова подчёркивают значимость корпусов в работе исследователей, которая заключается в том, что корпусы являются для пользователей эффективным источником обширного репрезентативного материала. Создание корпусов, как известно, обусловлено целями и задачами их функционального предназначения. В соответствии с этим, их можно разделить на: «а) многоцелевые корпусы, которые содержат тексты различных жанров, например, национальные корпусы; б) специализированные, ограниченные одним жанром или группой жанров» [4, с. 234]. Например, терминологический корпус служит для составления терминологического словаря. При разделении корпусов по жанровой направленности, возможно разделение их на диалектные, фольклорные, драматургические и др. В. П. Захаров и С. Ю. Богданова указывают на возможность разделения корпусов по функциональному назначению: например, исследовательские корпусы позволяют изучать различные аспекты языковых процессов, что позволяет решать широкий спектр лингвистических задач; иллюстративные помогают получить обоснование и подтверждение полученных в процессе исследовательской работы результатов.

По динамичности корпусного характера лингвисты классифицируют их на: «а) динамические корпусы, регулярно расширяемые в объёме и содержании фонда текстов и помогающие выявить языковые трансформации и изменения (используются, чаще всего, для составления словарей); б) статистические (коллекции текстов писателей), которые отображают состояние языковой системы в определённый отрезок времени». Существуют и другие критерии деления корпусов, например, разметка, доступность, объём, параллельность, тип языковых данных и назначение» [4, с. 234].

Авторы указывают также на два типа корпусов по параллельности (соотнесённости) текстов: параллельные корпусы (включают оригинальные тексты и их переводы), и сопоставимые корпусы (включают тексты, объединённые по каким-либо общим признаком (по стилю, тематике и т. д.). Оба типа этих корпусов используются при составлении терминологических словарей, в машинных переводах, в сравнительных лингвистических исследованиях и т. д. По цели обработки языковых данных учёные выделяют письменные, устные и смешанные типы корпусов.

Существуют также и так называемые учебные корпусы текстов (learner corpora – LC), которые предназначены для изучения иноязычной лексики. Авторы говорят «о широком использовании учебных корпусов для выявления и анализа распространённых ошибок в изучаемых языках» [4, с. 234].

Таким образом, на современном этапе развития электронных ресурсов в области лингвистических исследований становится очевидным тот факт, что лингвистика, как и другие области науки, переживает процесс автоматизации, направленный на системный анализ различных аспектов языковой обработки текстов. Появившись в 60-е гг. ХХ века, корпусная лингвистика создала принципиально новую методологическую основу для репрезентации речевой практики, а лингвистические корпусы получили широкое применение у большого круга пользователей: языковедов, преподавателей, литературоведов, редакторов, переводчиков, учёных-исследователей, студентов, а также компьютерных лингвистов, которые используют возможности корпусных исследований для создания электронных моделей языка.

 

Список литературы:

  1. Баранов, А. Н. Корпусная лингвистика / А. Н. Баранов // Введение в прикладную лингвистику: учебное пособие. –  М.: Едиториал УРСС, 2003. – С. 112–137.
  2. Баркович, А. А. Корпусная лингвистика: специфика современных метаописаний языка / А. А. Баркович // Вестник Томского государственного университета, 2016. – № 406. – С. 5–13.
  3. Горина, О. Г. Использование технологий корпусной лингвистики для развития лексических навыков студентов-регионоведов в профессионально-ориентированном общении на английском языке: автореф. дис. ... канд. пед. наук / О. Г. Горина. – М., 2014. – 27 с.
  4. Захаров, В. П. Корпусная лингвистика: Учебник. 3-е изд., перераб. / В. П. Захаров, С. Ю. Богданова // СПб.: Изд-во С.-Петерб. ун-та, 2020. – 234 с.
  5. Корпусная лингвистика / Ин-т лингв. исследований РАН [Электронный ресурс], 2008. – Режим доступа: http://corpora.iling.spb.ru/theory.htm. – Дата доступа: 07.05.2025.
  6. Плунгян, В. А. Корпус как инструмент и как идеология: о некоторых уроках современной корпусной лингвистики / В. А. Плунгян // Русский язык в научном освещении, 2008. – № 16 (2). – С. 7–20.
  7. Рыков, В. В. Корпус текстов как реализация объектно-ориентированной парадигмы / В. В. Рыков // Труды Международного семинара Диалог-2002. – М.: Наука, 2002.
  8. Сысоев, П. В. Лингвистический корпус в методике обучения иностранным языкам / П. В. Сысоев [Электронный ресурс]. – Режим доступа: https://cyberleninka.ru/article/n/lingvisticheskiy-korpusv-metodike-obucheniya-inostrannym-yazykam/viewer. – Дата доступа: 10.05.2025.
  9. Francis, W. Nelson. 1992. Language corpora B. C. In Svartvik, Jan (ed.), Directions in Corpus Linguistics: Proceedings of Nobel Symposium 82. – Stockholm, 4–8 August 1991. – Berlin, New York: Mouton de Gruyter. – pp. 17–32.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий