Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: I Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 06 декабря 2011 г.)

Наука: Филология

Секция: Лингвистика

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Гончарова Д.В. СОВРЕМЕННЫЕ ПРОГРАММНЫЕ СРЕДСТВА ДЛЯ РАЗРАБОТКИ МУЛЬТИМЕДИЙНЫХ КОРПУСОВ // Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ: сб. ст. по мат. I междунар. студ. науч.-практ. конф. № 1. URL: https://sibac.info//sites/default/files/files/06_12_12/06.12.2011.pdf (дата обращения: 26.04.2024)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

СОВРЕМЕННЫЕ ПРОГРАММНЫЕ СРЕДСТВА ДЛЯ РАЗРАБОТКИ МУЛЬТИМЕДИЙНЫХ КОРПУСОВ

Гончарова Диана Витальевна

студентка 3 курса, факультета европейских языков, ФГБОУ ВПО «Иркутский государственный лингвистический университет», г. Иркутск

Пуляевская Александра Михайловна

научный руководитель,

научный руководитель, магистр педагогики, кафедра информационных технологий, ФГБОУ ВПО «Иркутский государственный лингвистический университет», г. Иркутск

 

Корпус является одним из центральных понятий лингвистики. Первые лингвистические корпусы текстов появились в 60‑е гг. прошлого столетия. Среди современных корпусов английского языка наиболее известны: Британский национальный корпус (British National Corpus, http://www.natcorp.ox.ac.uk/), Международный корпус английского языка (International Corpus of English, http://ice-corpora.net/ice/), лингвистический Банк английского языка (Bank of English) и др.

Ниже представлены ссылки на сайты, где можно ознакомиться с проектами создания корпусов:

http://emotion-research.net/wiki/Databases — ссылки на ряд международных проектов корпусов;

http://www.corpling-ran.ru/n3.html — корпусные ресурсы по языкам народов России;

http://www.ruscorpora.ru/corpora-other.html — общедоступные параллельные корпуса, корпуса русского языка, славянских/неславянских языков.

В отечественной корпусной лингвистике важной вехой стало создание Национального корпуса русского языка http://www.ruscorpora.ru/), в структуру которого входят несколько подкорпусов, в том числе и мультимедийный. Он составлен из видеоматериалов отечественных фильмов и аудиозаписей публичной/непубличной устной речи. Поиск осуществляется по различным критериям: пол говорящего, возраст, манера говорения, типы речевых действий и др.

В настоящее время мультимедийные корпуса стали использоваться в лингвистике для анализа паттернов диалога, связи между речью и неречевыми коммуникативными средствами (жестами, мимикой, движениями глаз и т. д.), в этологии (науке о поведении животных и людей) и в возрастной психологии. Одно из современных направлений исследований — это применение корпусов для создания компьютерных систем, когда поведение и коммуникация реальных людей анализируется по видеосюжетам и переноситься на компьютерные персонажи или на роботов, взаимодействующих с человеком.

Тезис о том, что эмоции — одна из форм отражения, познания, оценки объективной действительности, признается представителями разных наук, прежде всего, психологами и философами. Эмоции связаны с потребностями человека, лежащими в основе мотивов его деятельности. Несмотря на четкость научных позиций, состояние изучения психологии эмоций, по мнению самих психологов, остается крайне неудовлетворительным. До сих пор не решена задача построения целостной, многоуровневой психологической теории эмоций. Что создает определенные трудности для лингвистов, обращающихся к проблемам языкового обеспечения эмоций. Одной из них является разнообразие классификаций эмоций. Сам перечень основных эмоций не установлен окончательно ни в психологии, ни в физиологии (психологи насчитывают более 500 различных эмоций). Достаточно сложными оказываются и процессы обозначения эмоций.

Таким образом, выявление и анализ особенностей эмоциональности человека посредством мультимедийного корпуса эмоций представляется актуальным. С точки зрения обучения иностранному языку такой корпус имеет и практическую значимость, так как позволит изучать особенности вербального и невербального общения людей разных культур.

Выбор программного средства — одна из основных задач при реализации мультимедийного корпуса эмоций. В рамках исследования были найдены и проанализированы программные средства по созданию мультимедийных корпусов, из которых были отобраны для более детального изучения следующие: Transcriber (1998, Karim Boudahmane, Mathieu Manta, Fabien Antoine. Франция), EXMARaLDA (2001, Thomas Schmidt, Kai Wörner, Германия), Transana (2001, Chris Fassnacht, США), ELAN (2002, Birgit Hellwig, Нидерланды), Praat (2003, Paul Boersma and David Weenink, Нидерланды), InqScribe (2005, Eric Baumgartner, Eric Baumgartner, Matthew Brown, США).

Дадим краткую характеристику перечисленных программных средств.

ELAN (http://www.lat-mpi.eu/tools/elan/manual/pr01.html) была разработана с целью обеспечения надежной технологической базы для аннотаций и эксплуатации мультимедийных записей. Операционные системы: Windows, Mac OS X, Linux. Поддерживаются языки: каталонский, английский, голландский, французский, немецкий, японский, португальский, испанский и шведский. В перспективе внедрение новых языковых модулей. 

EXMARaLDA (http://www.exmaralda.org/en_index.html) представляет собой набор программных инструментов для создания, управления и анализа корпуса разговорного языка. Она включает в себя возможности транскрибирования, выполнения запросов и добавления различных данных в корпус. EXMARaLDA основана на открытых стандартах XML и Unicode и написана на Java. Операционные системы: Windows, Linux, Macintosh, FreeBSD, Solaris. Доступные языки: английский, немецкий, французский, шведский, турецкий.

Transana (http://www.transana.org/about/Tour/index.htm) — это программа, предназначенная для облегчения транскрипции и качественного анализа видео- и аудиоданных. Она позволяет пользователю анализировать и управлять данными, записывать их, определять аналитически интересные клипы, выделять ключевые слова, создавать коллекции связанных между собою клипов. Операционные системы: Windows, Mac OS. Доступные языки: китайский, английский, датский, голландский, французский, немецкий, итальянский, норвежский, шведский, русский, испанский.

InqScribe (http://www.inqscribe. com/ index.html) является программой для работы с транскрипцией и субтитрами. Имеет довольно простой интерфейс. В отличие от других подобных приложений, в InqScribe можно добавлять комментарии в любое время транскрипции. Операционные системы: Windows, Mac OS X. Версия программы существует на языках: английском, немецком, датском, шведском языках.

Transcriber (http://trans.sourceforge.net/en/presentation.php) является инструментом для создания аннотаций к речевым сигналам. Для пользователя он предлагает удобный графический интерфейс, а также ряд возможностей, в которые входит: запись речи с большой продолжительностью, транскрибирование записанных отрезков, маркировка речи и др. Transcriber поддерживает различные аудио-форматы, распространяется как свободное программное обеспечение. Программа разработана на английском и французском языках и для различных платформ ( Windows, XP/2k , Mac OS X и Linux ).

Praat (http://www.fon.hum.uva.nl/praat/) — это программа для анализа и синтеза речи. Она предлагает широкий выбор стандартных и нестандартных процедур, включая спектральный анализ, синтез артикуляторных и нейронных сетей. При этом программа постоянно совершенствуется, новая версия выходит почти каждую неделю. Praat поддерживается на таких операционных системах, как Macintosh, Windows, Linux, FreeBSD.

На основании сопоставительного анализа функциональных возможностей данных программ, мы пришли к выводу, что программа ELAN обладает рядом преимуществ.

ELAN позволяет:

  • осуществлять поиск внутри одного/нескольких файлов;
  • переходить к просмотру определенной аннотации;
  • выполнять структурированный поиск по нескольким файлам;
  • отображать результаты с необходимыми данными в виде таблицы.
  • Параметры поиска предлагаются различные:
  • определенное слово/словосочетание из аннотации;
  • время начала/окончания фрагмента;
  • с/без аннотации;
  • поиск на разных уровнях одной аннотации и др.
  • После завершения поиска, ELAN отображает следующие параметры:
  • число найденных аннотаций;
  • полное содержание каждой аннотации;
  • время начала/окончания и продолжительность каждой аннотации;
  • для просмотра более детальной информации, необходимо выбрать интересующие поля и просмотреть результаты поиска.

При выполнении нескольких запросов подряд, можно создать историю поиска. С помощью этой функции появляется возможность просматривать все введенные ранее запросы.

Следующим этапом создания станет непосредственное наполнение мультимедийного корпуса эмоций на базе отечественных и зарубежных фильмов, в том числе и детских.

 

Список литературы:

  1. Гришина Е.А. Мультимедийный русский корпус (МУРКО): проблемы аннотации. Национальный корпус русского языка: 2006‑2008. Новые результаты и перспективы. URL: http://ruslang.academia.edu/ElenaGrishina/Papers (дата обращения: 27‑30.06.2011)
  2. Национальный корпус русского языка. URL: http://www.ruscorpora.ru/index.html (дата обращения: 13.07.2011)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.