Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: CXLIII Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 23 июня 2022 г.)

Наука: Филология

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Дагаева К.И. BIG-DATA В ЖУРНАЛИСТИКЕ: КОРПУСНЫЕ МЕТОДЫ И ПОДХОДЫ В ИССЛЕДОВАНИЯХ // Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ: сб. ст. по мат. CXLIII междунар. студ. науч.-практ. конф. № 12(143). URL: https://sibac.info/archive/meghdis/12(143).pdf (дата обращения: 21.09.2024)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

BIG-DATA В ЖУРНАЛИСТИКЕ: КОРПУСНЫЕ МЕТОДЫ И ПОДХОДЫ В ИССЛЕДОВАНИЯХ

Дагаева Кира Игоревна

магистрант, Национальный исследовательский университет "Высшая школа экономики",

РФ, г. Москва

BIG-DATA IN JOURNALISM: CORPUS-BASED RESEARCHES AND APPROACHES

 

Kira Dagaeva

master's student, National Research University "Higher School of Economics",

Russia, Moscow

 

АННОТАЦИЯ

В статье рассматриваются новейшие подходы к исследованию данных в журналистике, основанные на анализе Big-data. Автор предлагает метод создания и разметки уникальных корпусов текстов и использование языка программирования Python в качестве инструмента для статистического анализа и последующей интерпретации полученных данных в рамках изучения и подготовки различных журналистских материалов. Предложенные результаты представляют интерес как для специалистов в области теории и истории журналистики, так и для начинающих специалистов в области дата-журналистики.

ABSTRACT

The article discusses the latest approaches to data research in journalism based on big-data analysis. The author considers a method for creating and marking unique text corpora, suggests using the Python programming language for statistical analysis and subsequent interpretation of the data obtained. The proposed results are of interest both for specialists in the field of theory and history of journalism, and for beginners in the field of data journalism.

 

Ключевые слова: журналистика, big-data, корпусные исследования, создание корпусов, дата-журналистика.

Keywords: journalism, big-data, corpus-based researches, creation of corpus, data-journalism.

 

В последние годы стремительная цифровизация и глобализация накладывает отпечаток на самые разнообразные сферы жизнедеятельности. На первый план выходит активное развитие цифровых средств коммуникации, диджитализация информационной среды, активное развитие новых технологий. Изменения затрагивают не только технические и промышленные области, но и научные и социальные институты. Активная цифровизация самых различных процессов способствовала существенному упрощению реализации научных исследований. Массивы данных большого объема, называемые Big-Data, позволили расширить спектр исследований по самым различным вопросам. Помимо научных и теоретических аспектов диджитализации информационной среды следует также выделить и их влияние на прикладные, профессиональные, области. Одним из результатов таких процессов можно назвать появление такой профессии как «дата-журналист». Профессионалы данной отрасли собирают и анализируют большие массивы данных, опираясь, в том числе и на материалы, представленные в сети Интернет, а зачастую проводят аналитику, основываясь исключительно на данных, представленных во «всемирной паутине». В качестве материалов используются самые различные открытые источники, от публичных и статистических отчетов государственных структур, до данных некоммерческих организаций и даже разрозненных сведений, представленных различными информационными агентствами [5]. Как отмечают образовательные организации, занимающиеся подготовкой специалистов в области дата-журналистики, эта профессиональная область сочетает в себе навыки программирования, системного и статистического анализа, а также умения представить полученные данные в виде таблиц, инфографики и материалов, которые позволяют максимально просто и доступно донести новые знания до целевой аудитории [3].

Основным инструментом для реализации первоначальных задач, по сбору и систематизации разрозненных материалов, а также для первичного статистического анализа полученных данных, является язык программирования Python. Первоначально технологии для компьютерной обработки и анализа текстов различной сложности использовались в лингвистике. И только последние несколько лет, в рамках междисциплинарных исследований и практического применения полученных результатов, данных подход начал активно использоваться в журналистике. Статистический анализ различных машиночитаемых текстов применялся в такой области как корпусная лингвистика. В данном направлении работали Э. Вилсон и Т. МакЭнери [9], Д. Бибер [7], П. Бэйкер [6], Дж. Свартвик [10], Э. Финеган [8] и др. В качестве «корпуса» понимается «очень большая коллекция естественного языка, хранящаяся в виде компьютерных файлов» [6], технически обработанная таким образом, чтобы в ней можно было найти определенные слова или фразы [8]. Изначально корпусные методы использовались для изучения языков, что в последствии позволило упростить процессы создания словарей, создать различные системы для распознавания и синтеза устной речи, автоматических систем для проверки орфографии и грамматики [2]. Данные подходы и методы представляется возможным использовать для статистического анализа любых текстов.

Для создания корпусов, а также для обработки и разметки текстов, используется целый ряд различных программ и онлайн-инструментов, среди которых следует выделить AntConc, AntGram, TagAnt, Sketch Engine, Voyant Tools и т.п. Однако первостепенную роль по сбору и обработке информации занимает язык программирования Python. Он позволяет автоматизировано собирать данные, в том числе составлять корпуса, основанные на публицистических материалах, представленных в сети Интернет, аннотировать эти данные по датам, анализировать частотные лексемы [2] и т.д. Данные инструменты позволяют существенно упростить труд исследователя-журналиста и ускоряют процессы анализа и обработки данных. Интеграция представленных технологий в процессы деятельности журналиста [1, 4, 5], а также создание образовательных курсов посвященных «дата-журналистике» подтверждает актуальность и востребованность предложенных методов, подходов и инструментов.

 

Список литературы:

  1. Ги Б. Где в России нет Ленина? Исследование об улицах и памятниках в честь вождя [Электронный ресурс]. – Режим доступа: https://strelkamag.com/ru/article/gde-v-rossii-net-ulicy-lenina (дата обращения: 17.06.22)
  2. Дагаева К.И. Коммуникативная тема «Путешествие», лексика и конструкции: на основе тематического корпуса из актуальных интернет-источников [Электронный ресурс]. – Режим доступа: https://www.hse.ru/ma/foreign/students/diplomas/?page=4 (дата обращения: 17.06.22)
  3. Дата-журналист: истории, основанные на данных // Нетология [Электронный ресурс]. – Режим доступа: https://netology.ru/programs/data-journalist (дата обращения: 17.06.22)
  4. Меньшикова Е. Анализ рынка видеоигр [Электронный ресурс]. – Режим доступа: https://public.tableau.com/app/profile/elena.menshikova/viz/__16250678219000/sheet0_1 (дата обращения: 17.06.22)
  5. Шацкова Н. Дата-журналист: кто это и почему его работа так востребована // РБК. 30.08.2021 [Электронный ресурс]. – Режим доступа: https://trends.rbc.ru/trends/education/610c15be9a794759d450bbd2 (дата обращения: 17.06.22)
  6. Baker P. Sociolinguistics and Corpus Linguistics. —UK: Edinburgh University Press, 2010.
  7. Biber D. Using register-diversified corpora for general language studies // Computational linguistics. – 1993. – 19(2). – P. 219–241.
  8. Finegan E. Language: its structure and use. — N.Y.: Harcourt Brace College Publishers, 2004.
  9. McEnery T., Wilson A. Wilson. Corpus Linguistics. — Edinburgh: Edinburgh University Press, 1996.
  10. Svartvik J. Directions in Corpus Linguistics // Proceedings of Nobel Symposium 92, Stockholm, 4–8 August 1991. — Berlin: Mouton de Cruyter, 1992.
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.