ОТЕЧЕСТВЕННЫЕ КОМПЬЮТЕРНЫЕ ПРОГРАММЫ ДЛЯ АНАЛИЗА КАЧЕСТВЕННЫХ ДАННЫХ: ВЕГА И TEXTANALYST

Статья опубликована в рамках: XLVI Международной научно-практической конференции «Актуальные вопросы общественных наук: социология, политология, философия, история» (Россия, г. Новосибирск, 18 февраля 2015 г.)

Наука: Социология

Секция: Методология и методика социологического исследования

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Гегер А.Э., Гегер С.А. ОТЕЧЕСТВЕННЫЕ КОМПЬЮТЕРНЫЕ ПРОГРАММЫ ДЛЯ АНАЛИЗА КАЧЕСТВЕННЫХ ДАННЫХ: ВЕГА И TEXTANALYST // Актуальные вопросы общественных наук: социология, политология, философия, история: сб. ст. по матер. XLVI междунар. науч.-практ. конф. № 2(43). – Новосибирск: СибАК, 2015.

Условия публикаций
Все статьи конференции

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов

Статья опубликована в рамках:

XLVI Международной научно-практической конференции «Актуальные вопросы общественных наук: социология, политология, философия, история» (Россия, г. Новосибирск, 18 февраля 2015 г.)

Выходные данные сборника:

«Актуальные вопросы общественных наук: социология, политология, философия, история»: сборник статей по материалам XLVI международной научно-практической конференции. (18 февраля 2015 г.)

ОТЕЧЕСТВЕННЫЕ КОМПЬЮТЕРНЫЕ ПРОГРАММЫ ДЛЯ АНАЛИЗА КАЧЕСТВЕННЫХ ДАННЫХ: ВЕГА И TEXTANALYST

Гегер Алексей Эдуардович

канд. соц. наук, ст. науч. сотр. Социологического Института РАН, РФ, г. Санкт-Петербург

E-mail: ageger@gmail.com

Гегер Светлана Александровна

мл. науч. сотр. Социологического Института РАН, РФ, г. Санкт-Петербург

E-mail: svetlana.geger@gmail.com

DOMESTIC COMPUTER PROGRAMS FOR QUALITATIVE DATA ANALYSIS: VEGA AND TEXTANALYST

Alexey Geger

PhD in Sociology, Senior Researcher of The Sociological Institute of The Russian Academy of Sciences, Russia, St. Petersburg

Svetlana Geger

junior Researcher of The Sociological Institute of The Russian Academy of Sciences, Russia, St. Petersburg

АННОТАЦИЯ

В статье рассматривается проблема компьютерной поддержки анализа качественных и смешанных качественно-количественных данных. Систематически анализируются возможности двух отечественных разработок Вега и TextAnalyst. Оценивается потенциал программ при работе с большими текстовыми массивами, с массивами данных, состоящих из ответов на открытые вопросы, со смешанной информацией. Обсуждаются принципы классификации и кодификации в программах.

ABSTRACT

The article describes the problem of computer support for qualitative and mixed data analysis. The possibilities of the computer programs named Vega and TextAnalyst is systematically explored. The potential programs is estimated when we work with large text arrays, with data sets consisting of responses to open-ended questions, with mixed data. The principles of classification and codification programs are discussed.

Ключевые слова: компьютерные программы; качественные данные; смешанные данные; текстовые массивы; классификация; кодификация.

Keywords: computer programs; qualitative data; mixed data; text arrays; classification; codification.

Введение. До 90-х годов XX века большинство отечественных социологов, практикующих эмпирические исследования, ограничивалось использованием методов, основанных исключительно на положениях количественного статистического подхода. Важно отметить три составные части этого подхода — стандартизация процедуры сбора данных, массовые выборки, обеспечивающие доверие итоговым результатам, вероятностно-статистический анализ и, соответственно, статистически-обоснованные выводы. Количественный подход привлекал социологов своей внешней доказательностью, обеспечивал то самое стремление к научности, которое демонстрируют коллеги естественнонаучных дисциплин.

В начале 90-х годов XX века ситуация в отечественной социологии изменилась: все больше исследователей стали обращаться к качественной парадигме. Вышли знаковые работы таких авторов, как В.А. Ядов, В.В. Семенова, А.С. Готлиб, Е.Л. Омельченко и др. Однако указанные работы носят скорее теоретический, нежели практический характер. Довольно редко в отечественных публикациях, посвященных проблеме анализа нечисловой информации, можно встретить ссылки на конкретные компьютерные программы, призванные ассистировать исследователю. Отсюда можно сделать вывод, что-либо авторы считают эту проблему второстепенной, либо (что, скорее всего) пользуются при анализе текстовых массивов, как и много лет назад, методом «карандаша и бумаги».

Программа Вега. Компьютерная программа «ВЕГА» вышла в свет в 2007 году. Это совместная отечественная разработка СИ РАН и ЭМИ РАН. Разработчиками являются Г.И. Саганенко, Е.А. Каневский и К.К. Боярский. По сути это усовершенствованная и адаптированная под операционную систему Windows программа «ДИСКАНТ» (Диалоговая Система Контент-Анализа Текстов), которая была выпущена еще в 1994 году. «ВЕГУ» отличает дружелюбный интерфейс и некоторые усовершенствования, которых не доставало в «ДИСКАНТЕ» [2; 4].

«ВЕГА» — это диалоговая система классификации и анализа текстов, использующая принципы контент-анализа текстов, словари и классификаторы. Система в основном предназначена для обработки структурированной и, прежде всего, анкетной информации, представляющей собой ответы респондентов на открытые и полузакрытые вопросы социологических анкет. Кроме того, система позволяет выполнять некоторые элементы анализа текста: составление словарей, подсчет встречаемости слов, поиск слов по словарю и по тексту и т. д. Система обеспечивает статистический анализ ответов на закрытые и полузакрытые вопросы.

Программа «ВЕГА» — это инструмент не только качественного, но и количественного статистического анализа. Это в выгодную сторону отличает данную разработку от аналогов. В меню программы находится блок, названный статистическим анализом. Этот блок является достаточно мощным инструментом для программ текстового анализа.

С помощью данного блока пользователь может получать:

· Одномерный статистический анализ

· Двухмерный статистический анализ

· Трехмерный статистический анализ

· Таблица

· Многоальтернативный статистический анализ

· Шкалирование (что очень удобно, например, при работе с ответами о возрасте и уровне доходов).

В окне статистического анализа автоматически выводится среднее по полю, ХИ-квадрат, коэффициент Пирсона и коэффициент корреляции.

Основное же назначение данного программного продукта — анализ текстовой информации. Работа со словарями представляет начальный ресурс для анализа текстовых полей. В Веге можно получать разнообразные словари, при эом в качестве текстовых единиц могут выступать слова, ключевые слова, «фразы» и полные ответы на один вопрос. Наиболее полезный ресурс — это частотный словарь, который выводит все слова, встречающиеся в поле, с указанием их частоты встречаемости. Этот инструмент позволяет найти основные темы, на которые приходится фокус внимания респондентов. Словари могут быть получены по одному текстовому полю, по нескольким или по всем текстовым полям исследования. При этом словари могут быть получены на весь массив анкет или на сформированный по одному или нескольким значениям признаков конкретный подмассив.

При пермутационном выводе текста дается полный перебор всех фраз из заданного текстового массива в алфавитном порядке по каждому слову, содержащемуся в соответствующем словаре. Пермутационный словарь очень полезен для получения исследователем начальных представлений, о чем же говорят респонденты в своих ответах, при поиске тематических классов для процедуры классификации массивов ответов на открытые вопросы.

После первичного ознакомления с текстом с помощью разного вида словарей, как правило, следующая задача исследователя — классификация суждений для выхода на более высокий уровень обобщений. При этой процедуре основная аналитическая нагрузка лежит на исследователе, программа же становится надежным партнером. В нашем исследовании ценностных ориентаций молодежи респондентов просили написать свои ценности, и обычно получаемые ответы были достаточно короткими — не более пяти слов на описание одной ценности [1; 3]. Это обстоятельство помогло нам применить процедуру автоклассификации текста. При этой операции машина «складывает» все однокоренные слова в одну папку, а исследователь затем группирует эти папки по смыслу. Так, в нашем случае был выделен класс «Семья», в который в качестве подклассов были введены категории «родители» и «дети». После окончания процедуры классификации можно получать различные статистики (распределения и пересечения) по выбранным классификаторам.

TextAnalyst — программное обеспечение, предназначенное для анализа содержания текстовых массивов и смыслового поиска.

Система разработана на основе искусственных динамических нейронных сетей, и позволяет формировать базы знаний с автоматической классификацией (а в дальнейшем и с рубрикацией) исходных текстов и возможностью их преобразования в гипертекст.

Программа предоставляет следующие возможности:

· автоматическое реферирование текста;

· преобразование текста в гипертекст;

· смысловой поиск;

· формирование смыслового портрета текста на основе семантической сети, содержащей основные понятия и их смысловые связи;

· выявление иерархической структуры тем и подтем текста — формирование тематического дерева-структуры массива

Принципы функционирования

Первый — принцип ассоциативности, суть которого в том, что информация хранится таким образом, что появление небольшого ее фрагмента сразу отсылает к месту, где она хранится. Отсюда вытекает возможность статистической обработки: если фрагменты информации совпадают, они налагаются друг на друга, что позволяет установить частоту встречаемости различных элементов. В результате такого анализа формируется семантическая сеть — основная структура, характеризующая смысл текста, в которой понятия (слова и словосочетания) объединяются ассоциативными связями в соответствии с их совместной встречаемостью.

Второй принцип — переупорядочивание информации в соответствии с ее связями. При этом весовые характеристики, сформированные на первом этапе анализа, преобразуются таким образом, что понятия, встречавшиеся во входной информации не очень часто, но связанные мощными связями с понятиями, имеющих большой вес, в свою очередь, приобретают большой смысловой вес. Здесь происходит как бы натягивание семантической сети на поверхность всего текста, которая отражает смысловые связи понятий.

Третий принцип заключается во включении семантической сети в дальнейший процесс структуризации информации. Фрагменты текста относятся к соответствующим понятиям и связям сети. Создается так называемое тематическое древо — представление структуры текста в виде многоуровневой иерархии тем и раскрывающих их подтем. В зависимости от смыслового строения текста, тематическое древо может иметь один корень (главную тему), или разваливаться на куст несвязанных друг с другом тем.

Соблюдение этих трех принципов позволяет формировать автоматически заданное представление информации, и без привлечения априорной информации.

Возможности системы

Построение семантической сети

TextAnalyst сначала выполняет частотную обработку информации, создает словари с ранжированием слов по частоте встречаемости, в дальнейшем переупорядочивая их по количеству взаимных связей (наибольший вес получает слово с максимальным количеством смысловых связей), и выстраивает квазисемантическую сеть.

В ней в виде дерева представлена сеть основных понятий текста. Сеть понятий — это множество наиболее значимых терминов из текстов — связанных слов и словосочетаний. Аналогичным образом представлены и смысловые связи между понятиями текстов — отражаются лишь наиболее явно выраженные из них. Поэтому, с одной стороны сеть достаточно полно описывает смысл текстов, а с другой — позволяет сжато представить содержание текстового массива. Таким образом, каждое понятие оказывается представлено в одном узле сети, в котором также концентрируется информация, имеющая отношение к рассматриваемому понятию. Аналогичным образом собирается информация по смысловым связям каждого понятия — в виде списка всех связанных с ним в тексте понятий, дополненного предложениями, в которых отражаются данные связи.

Семантическая сеть строится следующим образом: сначала формируется сеть наиболее значимых понятий, содержащихся в тексте, которые выступают как основа для дальнейших видов анализа. Сеть понятий — множество терминов из текста (слов, словосочетаний), связанных между собой по смыслу. В нее включены наиболее значимые термины текста, несущие смысловую нагрузку.

Различные грамматические формы слова приводятся к одной наиболее часто встречающейся в тексте.

Важно также и то, что каждый элемент сети (понятие) характеризуется определенной числовой оценкой — смысловым весом. Она показывает, насколько важную роль играет понятие для смысла самого текста. Связи между парами понятий, в свою очередь, также характеризуются весами. Эта оценка позволяет задать способ сортировки информации, сравнить относительный вклад различных понятий и их связей в семантику текста, выявить более или менее важную тематику.

Значение оценки (лежащее в интервале от 1 до 100) показывает, насколько важным для понимания текста является понятие. Оценка равная 100 свидетельствует о том, что термин является ключевым, оценка стремящаяся к нулю означает, что термин был упомнят в тексте лишь вскользь и не играет значительной роли в понимании текстового массива.

Вес связей также всегда принимает значение от 1 до 100. Близкое к 100 значение показывает наличие сильной связи между понятиями в рамках рассматриваемого текста, это говорит о том, что два анализируемых понятия употребляются в большинстве случаев совместно. Низкое значение веса связи указывает на отсутствие смысловых зависимостей между понятиями. Стоит также отметить, что коэффициент веса связи несимметричен, т.е. связь понятия А с понятием В не равна связи понятия В с понятием А. Причиной тому является разная частота встречаемости терминов и разная широта контекста употребления.

Заключение

Для исследователей, заинтересованных в применении автоматических методов классификации при анализе открытых вопросов можно дать следующие рекомендации:

В случае анализа данных, полученных с помощью формализованной анкеты с незначительным количеством открытых вопросов, рекомендуется использовать программу TextAnalyst для построения сети понятий, которая в большинстве случаев может дать представление о структуре классификатора. Далее кодировать ответы анкеты вручную, присваивая им коды полученных на предварительном этапе категорий, затем пользоваться привычными статистическими пакетами для обработки данных.

Система Вега представляет большой интерес в том случае, если исследователь собирается анализировать анкету, которая содержит большое количество открытых вопросов. В таком случае, следует вводить данные анкет непосредственно в базу данных Веги, составлять классификаторы и кодировать открытые вопросы с помощью данного пакета, и полученные результаты попытаться проанализировать статистическими средствами, доступными в пакете.

Список литературы:

Гегер А.Э. Выявление индивидуальных и групповых ценностей в группе молодежи. Релевантные методические решения // Социологические исследования. — 2010. — № 1. — С. 132—141.
Каневский Е.А., Саганенко Г.И., Гайдукова Л.М., Клименко Е.Н. Диалоговая система классификации и анализа текстов // Социология: 4М, — 1997. — № 9 — С. 198—216.
Саганенко Г.И., Гегер А.Э., Степанова Е.И. Потенциал рефлексивных методов в выяв-лении релевантных ценностей/ Социология: 4М. — 2011. — № 32. — C. 75—103.
Саганенко Г.И., Каневский Е.А., Боярский К.К. Контексты эмпирического познания в социологии и возможности программы ВЕГА // Телескоп, — 2008. — № 6. — С. 43—45.

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов