Статья опубликована в рамках: LXXXI Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ГУМАНИТАРНЫЕ НАУКИ» (Россия, г. Новосибирск, 16 сентября 2019 г.)
Наука: Филология
Секция: Лингвистика
Скачать книгу(-и): Сборник статей конференции
ИССЛЕДОВАТЕЛЬСКИЙ ПОТЕНЦИАЛ СИСТЕМ BIG DATA
В век современных технологий стремительно растущий объем информации ставит новые сложные задачи по организации ее хранения и обработки. Источниками информации могут служить непрерывный поток данных с разнообразных измерительных устройств, сообщения из социальных сетей, данные с метеорологических спутников и многое другое. Глобальная экспансия упомянутых ранее технологий и совершенно новых принципов применения разнообразных устройств и веб-сервисов, стала началом проникновения больших данных почти во все сферы человеческой деятельности.
«Big Data» или «большие данные» – относительно новое словосочетание. Впервые этот термин употребляет редактор журнала «Nature» Клиффорд Линч в 2008 году. В журнале он рассказывал о феномене бурного роста количества данных и их многообразии. Большими данными обычно называют громадные массивы информации, неопределенные и неоднородные по своей структуре. Однако не стоит сравнивать Big Data с неорганизованной и неструктурированной информацией, так как это мнение будет ошибочным. Большие данные обладают определенной структурой, она может быть сложной потому, что информация поступает из разнообразных источников и состоит из отличных друг от друга или вовсе неизвестных сведений [2, с. 65].
Сфера больших данных характеризуется VVV, а именно, тремя основными признаками:
Volume – объем; собранная база данных, составленная из огромного объема информации, которую труднозатратно обрабатывать и хранить привычными способами, потребуют применение новых подходов и инструментов.
Velocity – скорость, данное свойство указывает как на увеличивающуюся скорость накопления данных, так и на скорость обработки данных.
Variety – многообразие, иными словами – возможность параллельной обработки разнородной информации.
Вместе с тем, иногда к вышеназванным признакам, добавляют еще два, а именно: Veracity – подлинность данных, и Viability – жизнеспособность (в некоторых источниках это Value– ценность) [3, с. 18].
На сегодняшний день, технология больших данных нашла применение во многих сферах деятельности человека. Перечислим некоторые области применения больших данных. Big Data в торговой сфере– это всевозможные сведения о времени и месте совершенных покупок, данные о посещении различных торговых центров. В сфере коммунальных услуг большие данные предоставляют для анализа информацию, поступающую с приборов учета, например, различных домовых счетчиков. Такой способ сбора данных позволяет уменьшить человеческий фактор, и, как следствие, количество ошибок. Также это облегчает анализ поступающей информации. В телекоммуникациях большие данные – это вся внутренняя информация с устройств, подключенных к сети, история использования разнообразных сервисов, данные о геолокации. Более того, весь трафик (звонки, SMS, интернет) может быть в любой момент проанализирован, к примеру, при соответствующем запросе от правоохранительных органов. Большие данные нашли применение и в автомобильной индустрии. Автомобильный бренд BMW пользуется технологией Big Data. В сочетании с данными, полученными от прототипов в ходе тестов, информацией об ошибках с автомобилей по всему миру и жалобами потребителей, система помогает найти слабые места автомобиля еще на стадии проекта. Реализация технологий Big Data в медицинской сфере дает лечащему персоналу возможность тщательнее изучить болезнь и подобрать наиболее действенный метод лечения для каждого случая. Благодаря возможности проанализировать большое количество информации за короткий срок, врачам становится легче поставить диагноз, а его точность увеличивается. Медики могут предугадывать рецидивы и предпринимать превентивные меры. Система Big Data нашла применение в полиции. Например, департамент полиции Лос-Анджелеса пользуется собственно разработанной системой. По результатам анализа отчетов о правонарушениях за указанный период времени, этот алгоритм определяет места с наибольшей вероятностью совершения преступления. Big Data используется и интернет корпорациями, например, такими как Яндекс. В компании работают алгоритмы выделения целевой аудитории для трансляции рекламных объявлений, мониторинга дорожной ситуации, оптимизации выдачи поисковых результатов, музыкальных рекомендаций.
Цифровая гуманитаристика– это новое направление, которое за последнее десятилетие заняло свое место в гуманитарных междисциплинарных компьютерных исследованиях. Цифровая эпоха в гуманитарных науках наступила после компьютерной революции с увеличением производительности компьютеров. Это, в свою очередь, позволило не только моделировать сложные виртуальные системы, но и представлять их в электронной среде с использованием Интернета. Фактически любое гуманитарное исследование сегодня основано на стихийной или систематической, выборочной или непрерывной оцифровке документов и объектов исторического и культурного наследия. Оцифровка стала одной из важных повседневных практик гуманитарного искусства [1, c. 5].
Рассматривая применение больших данных в лингвистике, стоит, прежде всего, отметить систему национальных корпусов. Примерами таких корпусов могут служить – Национальный корпус русского языка (НКРЯ), Британский национальный корпус (British National Corpus) и Корпус современного американского английского (Corpus of Contemporary American English). Национальным корпусам противопоставляются специальные, которые создаются для решения конкретных лингвистических задач. Специализированный корпус – это жанрово специфический корпус, имеющий целью отразить определенный подъязык. Например, the Corpus of Professional Spoken American English (CPSA) состоит из транскриптов коммуникативных ситуаций с академической и политической профессиональных областей. The Michigan Corpus of Academic Spoken English (MICASE) содержит около 1700000 словоупотреблений (около 200 часов записей) современной устной университетской речи. Внутри этого типа корпусов можно выделить корпусы одного автора или одного жанра (например, the Epistolary Corpus of Victorian Women Writers 'Letters, the Shakespeare Corpus, Корпус словаря языка Достоевского) [4, c. 21].
Корпуса предоставляют информацию о динамике процессов изменения лексического состава языка, функционирования грамматических и синтаксических единиц, позволяют осуществлять анализ употребления языковых единиц в разных стилях, жанрах, у разных авторов и т.д. Ранее, одной из причин, по которым корпусные исследования были сфокусированы по большей части лишь на частоте употребления определенных существительных, глаголов и прилагательных, являлся недостаток компьютерных мощностей. На сегодняшний день с усовершенствованием компьютерных технологий ученые получили возможность определять и анализировать более сложные лексические, грамматические и синтаксические явления.
Прикладные лингвисты (преподаватели, переводчики и другие) применяют компьютерные корпуса для обучения иностранному языку и решения своих профессиональных задач. Разница прикладных и компьютерных лингвистов состоит в том, что первые применяют корпуса с целью обучения ИЯ. Вторые используют корпуса для конструирования моделей языка. С иной целью применяют корпуса и в социолингвистических исследованиях, например, в сфере изучения языкового разнообразия. К корпусам обращаются редакторы текстов, литературоведы, переводчики, историки, социологи, психологи и т.д. Обхват применения корпусов дополняется и потребностью их использования в создании и разработке автоматизированных систем, к которым можно отнести машинный перевод.
Корпуса приобретают все большую популярность в сфере обучения иностранных языков. Преподаватели и учащиеся начинают чаще использовать корпус для поиска и анализа различной информации, связанной с лингвистикой. В том случае если, ученики и учителя имеют доступ и навыки работы с корпусом, он может стать бесценным источником примеров употребления всевозможных грамматических и лексических единиц.
Big Data используется в различных лингвистических исследованиях («Экспланаторный потенциал теории классов для лингвистического исследования, порядок следования определений» О.А. Сулейманова, И.М. Петрова), лингвокогнитивных («Использование Big Data в экспериментальных лингвокогнитивных исследованиях: анализ семантической структуры глагола shudder» О.А. Сулейманова, В.В. Демченко) и психолингвистических исследованиях («Автоматическое выделение психолингвистических характеристик текстов в рамках концепции Big Data» А.Г. Сбоев, Д.В. Гудовских, И.А. Молошников, К.А. Кукин, Р.Ю. Рыбка, И.И. Иванов, Д.С. Власов).
Иной инновационной областью, которая напрямую связана с корпусной лингвистикой, является создание и анализ ученических корпусов (learner corpora). С помощью информации, полученной из таких корпусов, учитель может сделать выводы об общих успехах своих учеников, о конкретных грамматических, лексических и синтаксических ошибках. Использование параллельных корпусов, предоставляющих конкретные эквиваленты перевода слова, фразы, синтаксической конструкции, также является большим преимуществом для методики обучения языку.
Однако у Big Data есть слабые стороны. Д. Бойд и К. Кроуф выделили следующие недостатки [5, c. 662-679]:
1) иллюзия объективности, так как в центре обработки находится интерпретация найденных закономерностей, являющаяся субъективной по своей природе;
2) большое количество данных это не всегда хорошо, так как не все они могут затрагивать изучаемый предмет. Также в огромном количестве информации может не быть корреляций;
3) вне контекста собранные данные могут потерять смысл;
4) наличие нерелевантной информации в данных, что искажает их смысл;
5) при большом количестве информации вычисление корреляций может сильно искажаться;
6) побочная эндогенность;
7) ошибки измерения и репрезентативности, т.е. программа может задать неверный алгоритм, как следствие данные будут невалидными.
Кроме технических проблем выделяют ряд этических, решение которых является более проблематичным. Их можно объединить в следующие группы [5, c. 662-679]:
1) нарушение приватности;
2) отслеживание информации о пользователе в сети как в прошлом, так и реальном времени;
3) закрытость данных для некоторых слоев населения.
Принимая во внимания эти этические проблемы, некоторые исследователи считают, что большие данные должны быть общедоступными, что в свою очередь подразумевает увеличение уровня компетентности в сфере информационных технологий, как среди рядовых граждан, так и различных научных работников.
Таким образом, мы можем утверждать, что человек ежедневно сталкивается с большими данными. На современном этапе развития Big Data – это действующий набор технологий, которые могут принести пользу во многих сферах человеческой жизни. Большие данные помогают собирать и анализировать огромные массивы информации, чем активно пользуются интернет корпорации, представители автомобильной индустрии, работники медицины, полиция и т.д. В лингвистике большой популярностью пользуется система национальных корпусов, в основе работы которых лежат технологии Big Data. На сегодняшнем этапе своего существования лингвистические корпусы масштабно используются как лингвистическими, так и нелингвистическими отраслями. Возможности применения лингвистических корпусов при обучении английскому языку значительно облегчают образовательный процесс.
Список литературы:
- Володин А.Ю., Digital Humanities (цифровые гуманитарные науки): в поисках самоопределения // Вестник Пермского университета. Серия "История". – 2014. – № 3 (26). – С. 5-12.
- Кравченко В.О., Крюкова А.А. «Большие данные» — практические аспекты и особенности // Academy. – 2016. – № 6 (9). – С. 65-67.
- Новиков Д.А. Большие данные: от Браге к Ньютону // Проблемы управления. – 2013. – № 6. – С. 15-23.
- Погорелова М.А. Использование технологий корпусной лингвистики для развития грамматических навыков у школьников средней ступени обучения: выпускная квалификационная работа. – БелГу. – 2018. – С. 21.
- Boyd D., Crawford K. Critical Questions for Big Data: Provocations for a cultural, technological, and scholarly phenomenon // Information, Communication & Society. 2012. Vol.15. № 5. P. 662-679.
Оставить комментарий