АПРОБАЦИЯ МЕТОДОВ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ ПРИ АТРИБУЦИИ ТЕКСТА В РАМКАХ СУДЕБНОГО АВТОРОВЕДЕНИЯ

Статья опубликована в рамках: XXI Международной научно-практической конференции «В мире науки и искусства: вопросы филологии, искусствоведения и культурологии» (Россия, г. Новосибирск, 18 марта 2013 г.)

Наука: Филология

Секция: Прикладная и математическая лингвистика

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Хоменко А.Ю. АПРОБАЦИЯ МЕТОДОВ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ ПРИ АТРИБУЦИИ ТЕКСТА В РАМКАХ СУДЕБНОГО АВТОРОВЕДЕНИЯ // В мире науки и искусства: вопросы филологии, искусствоведения и культурологии: сб. ст. по матер. XXI междунар. науч.-практ. конф. – Новосибирск: СибАК, 2013.

Условия публикаций
Все статьи конференции

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов

Статья опубликована в рамках:

Международной заочной научно-практической конференции

«Филология, искусствоведение и культурология в ХХI веке» (Россия, г. Новосибирск, 18 марта 2013 г.)

Выходные данные сборника:

«Филология, искусствоведение и культурология в ХХI веке»: материалы международной заочной научно-практической конференции. (18 марта 2013 г.)

АПРОБАЦИЯ МЕТОДОВ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ ПРИ АТРИБУЦИИ ТЕКСТА В РАМКАХ СУДЕБНОГО АВТОРОВЕДЕНИЯ

Хоменко Анна Юрьевна

выпускница НГЛУ им. Н.А. Добролюбова, специалист; студент 1 курса магистратуры НИУ ВШЭ НФ по специальности «Компьютерная лингвистика», лингвист-эксперт, специалист отдела лингвистических, фоноскопических и видеофонографических экспертиз НПО «Эксперт Союз» (сертификаты по специальности «Исследования продуктов речевой деятельности», «Исследования голоса и звучащей речи»), г. Нижний Новгород

E-mail: lili-th89@narod.ru

Романова Татьяна Владимировна

научный руководитель, д-р филол. наук, профессор НИУ ВШЭ НФ, г. Нижний Новгород

Актуальность темы. Проблемы атрибуции текстов в судебном автороведении на современном этапе его развития стоят очень остро. Компетентным государственным органам часто требуется выяснить принадлежность того или иного текста, причём тексты на экспертное исследование предоставляют очень разные: от учебных пособий объёмом более пятисот страниц до расписок, занимающих не более половины страницы. Это затрудняет выработку единой универсальной методики авторизации текстового материала. Эксперты при атрибуции текстов на этапе предварительного следствия или же во время судебного процесса используют очень разные методики. Так, проблемы методического характера при производстве речеведческих экспертиз, к коим и относятся автороведческие исследования, зачастую становятся камнем преткновения, ведь основное, что использует любая экспертиза, связанная с продуктами речевой деятельности, — это интерпретация языкового знака; а эта интерпретация может сильно варьироваться у различных экспертов.

Спорами, касающимися различий в интерпретации одного и того же языкового знака различными экспертами, в том числе и обусловлено стремление к оптимизации и объективизации методик анализа, применяющихся в автороведческих экспертизах.

На наш взгляд, именно методы математической статистики и основные постулаты теории вероятности могут помочь как в оптимизации, так и в объективации результатов исследования в области судебного автороведения.

Цель данной работы — определить, могут ли методы математической статистики и стилеметрического анализа успешно применяться в автороведении; можно ли на их основе создать универсальную методику атрибуции текста любого объёма.

Материалы и методика исследования. Материалом для исследования послужили художественные тексты заведомо известных авторов, поскольку целью работы является определение того, работоспособна ли методика стилеметрического анализа для текстов различных стилей и объёмов. Для определения этого необходимо было использовать уже авторизованный, «проверенный» материал, то есть тот материал, который объективно сможет показать плюсы и минусы методики. Так, материалом послужила следующая речевая продукция:

1. Тестовая выборка (ТВ) — выборка, на основе которой строилась исходная модель, это в терминологии судебной экспертизы — сравнительный материал. ТВ представляла собой тексты С.Д. Довлатова, представленные в Национальном корпусе русского языка (электронный ресурс Интернет: http://www.ruscorpora.ru/), за исключением текста «Наши» (1983 г.) (ЭТ1). Этот текст рассматривался как экспериментальный, то есть текст, у которого якобы не определён автор.

Таким образом, объём ТВ — 330709 слов.

2. ЭТ1 (экспериментальный текст № 1) — текст С.Д. Довлатова «Наши» (1983 г.). Объём — 21230 слов.

В качестве второго экспериментального текста использовался не текст С.Д. Довлатова, а текст другого автора.

3. ЭТ2 (экспериментальный текст № 2) — текст В.П. Астафьева «Затеси» (1999 г.). Объём — 15168 слов.

Тексты ЭТ1 и ЭТ2 выбраны для апробации методики, поскольку они, с одной стороны, имеют достаточно важные сходные художественные и экстралингвистические характеристики (близкий к публицистическому стиль написания, высокий уровень автобиографичности текстов, тематика — описание советской действительности, время действия — советский период, обширная аудитория читателей), с другой — принадлежат разным авторам, имеющим различные идиостили.

В качестве основы для методики анализа было положено исследование Е.С. Родионовой «Лингвистические методы атрибуции и датировки литературных произведение (К проблеме «Мольер-Корнель»)» [3]. Эта методика используется на данный момент в судебном автороведении. Методика Е.С. Родионовой была совмещена с методикой анализа языковой личности по Ю.Н. Караулову [2], методикой квантитативного анализа незнаменательных и стилистически немаркированных лексем и квазисинонимов А.Н. Баранова [1] и некоторыми постулатами теории вероятности.

Апробация методики.

I. Построение атрибуционных гипотез об авторстве спорных текстов ЭТ1 и ЭТ2:

Н_0/1 — автор ТВ и ЭТ1 — одно лицо, то есть автор ТВ и ЭТ1 — С.Д. Довлатов (по закону транзитивности: если автор ТВ — С.Д. Довлатов, а автор ЭТ1 и ТВ — одно лицо, то автор ЭТ1 — тоже С.Д. Довлатов).

Н_1/1 — авторы ТВ и ЭТ1 — разные лица, то есть автор ЭТ1 не С.Д. Довлатов (если автор ТВ — С.Д. Довлатов, а авторы ЭТ1 и ТВ — разные лица, то автор ЭТ1 — не С.Д. Довлатов).

Н_0/2 — автор ТВ и ЭТ2 — одно лицо, то есть автор ТВ и ЭТ2 С.Д. Довлатов (по закону транзитивности: если автор ТВ — С.Д. Довлатов, а автор ЭТ1 и ТВ — одно лицо, то автор ЭТ2 — тоже С.Д. Довлатов).

Н_1/2 — авторы ТВ и ЭТ2 — разные лица, то есть автор ЭТ2 не С.Д. Довлатов (если автор ТВ — С.Д. Довлатов, а авторы ЭТ2 и ТВ — разные лица, то автор ЭТ2 — не С.Д. Довлатов).

II. Анализ языковой личности (ЯЛ).

1. Анализ ЯЛ автора ТВ, то есть ЯЛ С.Д. Довлатова.

Анализ ЯЛ необходим в данной работе для того, чтобы определить параметры, характеристики для построения математических моделей сравнительного материала и спорного текста.

В ходе анализа были выделены следующие релевантные для исследования характеристики (под релевантными понимаются такие фрагменты ЯЛ, которые можно вербализовать в виде одной лексемы или одной синтаксической особенности; более того, эта лексема или синтаксическая особенность не должна быть чересчур индивидуально маркированной, то есть в анализ нельзя включать окказионализмы, авторские неологизмы и пр.; все характеристики должны быть, с одной стороны, общеупотребимыми, с другой — встречаться в произведениях автора, идиостиль которого анализируется, и отражать его взгляд на мир):

1. вербально-семантический уровень: местоимения «я», «мы», «ты», «они». Выделены, исходя из наличия соотношения в прозе Довлатова проблемы субъекта говорения и субъекта действия, то есть автора и героя;

2. лингвокогнитивный уровень:

а) «плохо», «хорошо» — лексемы, маркирующие отношение к действительности;

б) «тёмный», «белый», «светлый» — лексемы, имплицитно маркирующие отношение к действительности и создающие её образ;

в) «город», «чемодан» — лексемы, вербализующие значимые для Довлатова концептуальные сущности. Образ города присутствует во многих произведениях Довлатова, являясь символом определённого типа сознания. Чемодан же является у Довлатова символом дороги, перемещения;

3. мотивационный уровень: «пусть», «бы», «так», «пожалуй», «ладно», «ну» — модификаторы субъективной модальности допущения. Данные экспликаторы модальности взяты, поскольку именно они, исходя из исследований Топтыгиной Е.Н. [4], являются «центральными модификаторами» семантического поля допущения. Перечисленные частицы, действительно, чаще других формальных материальных экспликаторов субъективной модальности допущения встречаются в текстах Довлатова, представленных в НКРЯ.

К перечисленным параметрам был добавлен ещё ряд. Так, анализировались также репрезентанты субъективной модальности удивления «ах», «разве» и «неужели». Эти лексемы выделены как одни из центральных, эксплицирующих удивление. Добавлены также лексемы, репрезентирующие модальность ограничения: «только», «лишь», «почти», — и модальность возражения «всё-таки».

Параметрами для построения математических моделей являются также и лексемы, вербализующие некоторые фрагменты ЯЛ В.П. Астафьева. Наличие этих параметров необходимо, поскольку принимается постулат о непохожести идиостилей различных авторов. Соответственно, нужно выявить, действительно ли элементы, отражающие особенности видения мира одним автором, являются настолько показательными, что посредством их стилеметрического анализа можно отличить тексты этого автора от текстов другого. Гипотетически, именно наличие элементов, репрезентирующих ЯЛ разных авторов, должно привести к тому, что характеристики ЯЛ одного будут значимы в квантитативном отношении настолько, что помогут выявить принадлежность того или иного текста именно этому автору. Как следствие, сходство ТВ и ЭТ1 и различие ТВ и ЭТ2 должны доказать успешность использования предлагаемой методики для атрибуции письменных текстов.

Из перечисленного выше понятно, что необходимо обзорно проанализировать не только ЯЛ автора ТВ и ЭТ1, но и ЯЛ автора ЭТ2, то есть В.П. Астафьева.

2. В ходе анализа ЯЛ В.П. Астафьева были выделены следующие релевантные для исследования параметры:

1) вербально-семантический уровень: использование сочинительных союзов «а», «и», «но» в начале предложения;

2) лингвокогнитивный уровень:

а) «грусть», «грустный», «грустно» — лексемы, имплицитно («грусть», «грустный») и эксплицитно («грустно») маркирующие отношение к действительности. Эти лексемы отражают в том числе аксиологические оценки в прозе Астафьева;

б) «детство», «родина» — лексемы, вербализующие значимые для Астафьева концептуальные смыслы;

в) «молчание», «молчаливый» — лексемы, имплицитно маркирующие отношение к действительности и создающие её образ;

3) мотивационный уровень: «видно» — лексема, эксплицирующая модальность допущения, неуверенности, предположения.

Видим, что при анализе структуры ЯЛ Довлатова С.Д. и Астафьева В.П. в работе выделяются сходные фрагменты ЯЛ (на каждом уровне реализована попытка взять те лексемы, которые репрезентируют сходные зоны ЯЛ: лингвокогнитивный уровень — оценка действительности, образ действительности; мотивационный уровень — модальность допущения, неуверенности). Это должно повысить качество моделей.

В общей сложности было взято 35 параметров для исходных моделей.

III. Квантитативные и стилеметрические преобразования данных, полученных в результате анализа ЯЛ.

1. На первом этапе было проведено определение выборочных частот, то есть был произведён механический подсчёт того, сколько раз параметр реализуется в ТВ, ЭТ1, ЭТ2.

2. Далее производилось определение средневыборочной частоты каждого параметра по формуле (1).

(1)

где: — i-й элемент выборки, — объём выборки.

3. Определяем отклонение выборочных частоты от средневыборочной частоты (среднеквадратического отклонения рассчитывается по формуле (2)).

(2)

где: — дисперсия; — i-й элемент выборки; — объём выборки; — среднее арифметическое выборки (средневыборочная частота).

4. Ищем вероятную ошибку в определении средней частоты по формуле (3) (для α — 0,2 и вероятности 0,8 при (n — 1) степеней свободы (35–1=34): t = 1,3070).

(3)

где: — табличный коэффициент (t — критерий Стьюдента); — среднеквадратичное отклонение; — объём выборки.

Для ТВ ошибка составляет 0,002272751.

Для ЭТ1 — 0,008969957

Для ЭТ2 — 0,010611997.

Естественно, для каждого параметра значимость этой ошибки различна. Тем не менее, в общей сложности можно говорить о том, что для большинства лексем (для синтаксических особенностей, как то: сочинительные союзы в начале предложения, — и некоторых лексем это нерелевантно) ТВ ошибка не очень велика, а вот для ЭТ1 и ЭТ2 ошибка ощутима. Поэтому в работе учитывается эта ошибка.

5. Определяем релевантные параметры для конечных моделей. Определяются по t-критерию Стьюдента (4). Уровень значимости α — 0,2. Критическое значение — в таблице пересечение уровня степеней свободы (количества параметров — 1) и вероятности 0,8.

(4)

где: — средние арифметические; — стандартное отклонение; — объёмы выборок.

Результат представлен в Таблице 1 и Таблице 2.

Таблица 1.

Релевантные критерии для модели ТВ и ЭТ1

наименование лексемы (параметра)	релевантность параметров (высчитанный t-критерий)
грусть	1,0000024
сочинительный союз «но» в начале предложения	1,000000995
пусть	1,000000322
грустный	0,999999385
разве	0,574353544
ах	0,557732994
белый	0,525046443
неужели	0,506984357

Таблица 2.

Релевантные критерии для модели ТВ и ЭТ2

наименование лексемы (параметра)	релевантность параметров (высчитанный t-критерий)
молчаливый	1,000003547
грусть	1,0000024
молчание	1,000002033
сочинительный союз «и» в начале предложения	1,00000193
грустно	1,00000193
сочинительный союз «а» в начале предложения	1,000001053
сочинительный союз «но» в начале предложения	1,000000995
всё-таки	0,808477862
видно	0,641473088

В Таблицах 1 и 2 представлены релевантные параметры для сравнения ТВ и ЭТ1 и ТВ и ЭТ2, соответственно. Релевантность параметров определяется, исходя из соотношения значений параметров, вычисленных по формуле (4), и t-критерия Стьюдента. Релевантными для построения моделей в настоящей работе считаются параметры, числовые показатели которых наиболее близки к табличному значению t-критерия (1, 3070).

Важно, что ни одно значение параметра не превысило значение t-статистики. Для исследования это означает, что полученные результаты будет иметь точность менее изначально заявленной, то есть менее 80 %. Интересно, что значения параметров для ТВ и ЭТ2 ближе к t-критерию, чем значения для ТВ и ЭТ1. Это говорит о том, что характеристики для сравнения ТВ и ЭТ2 выбраны более удачно, чем для сравнения ТВ и ЭТ1.

IV. Осуществляем переход от реальных объектов к их математическим моделям (как для текстов-образцов (ТВ), так и для спорных текстов(ЭТ1), (ЭТ2)), то есть описание выделенных в ходе предшествующего анализа параметров с помощью условной сигнатуры. Формируем матрицы данных.

Математические модели и матрицы данных для ТВ и ЭТ1 и ТВ и ЭТ2 представлены в Таблицах 3 и 4.

Таблица 3.

Математическая модель ТВ и ЭТ1

Параметр	Класс
	Ω_ТВ	Ω_ЭТ1
	/*x_i±s_i*/	/*x_i±s_i*/
Х_1/1	0,019	0
Х_2/1	0,003	0
Х_3/1	0,124	0
Х_4/1	0,07	0
Х_5/1	0,141	0,014
Х_6/1	0,068	0,007
Х_7/1	0,19	0,021
Х_8/1	0,061	0,007

Где:

Х_1/1— грусть

Х_2/1— сочинительный союз «но» в начале предложения

Х_3/1— пусть

Х_4/1— грустный

Х_5/1— разве

Х_6/1— ах

Х_7/1— белый

Х_8/1— неужели

Ω_ТВ— модель ТВ;

Ω_ЭТ1— модель ЭТ1;

x_i— средневыборочная частота с учётом ошибки про вычислении средневыборочной частоты;

s_i — среднеквадратическое отклонение.

Таблица 4.

Математическая модель ТВ и ЭТ2

Параметр	Класс
	Ω_ТВ	Ω_ЭТ2
	/*x_i±s_i*/	/*x_i±s_i*/
Х_1/2	0,014	0,000
Х_2/2	0,019	0,000
Х_3/2	0,044	0,000
Х_4/2	0,023	0,000
Х_5/2	0,023	0,000
Х_6/2	0,035	0,000
Х_7/2	0,004	0,000
Х_8/2	0,424	0,008
Х_9/2	0,117	0,008

Где:

Х_1/2— молчаливый

Х_2/2— грусть

Х_3/2— молчание

Х_4/2— сочинительный союз «и» в начале предложения

Х_5/2— грустно

Х_6/2— сочинительный союз «а» в начале предложения

Х_7/2— сочинительный союз «но» в начале предложения

Х_8/2— всё-таки

Х_9/2— видно

Ω_ТВ– модель ТВ;

Ω_ЭТ2— модель ЭТ2;

x_i— средневыборочная частота с учётом ошибки про вычислении средневыборочной частоты;

s_i — среднеквадратическое отклонение.

V.Сравниваем модели: модель текстов-образов, описывающую некоторые закономерности ЯЛ заведомо известного автора (автора ТВ), и модели спорных текстов, описывающие некоторые закономерности ЯЛ якобы неизвестных авторов (ЭТ1 и ЭТ2). Для сравнения моделей используется коэффициент корреляции между однородными параметрами модели, определяемый по формуле (5).

(5)

где: — средние значения выборок.

Этот коэффициент показывает, насколько близки две модели. Чем ближе значение этого коэффициента к 1, тем более сходны модели в качественном отношении, что говорит и о близости характеристик текстов.

Коэффициент корреляции в настоящей работе посчитан автоматически встроенной функцией Microsoft Exсel 2007.

Коэффициент корреляции между числовыми значениями матриц ТВ и ЭТ1 равен 0,783448911306154.

Коэффициент достаточно близок к единице, что говорит о сходстве качественных характеристик моделей ТВ и ЭТ1, то есть идиостиль ТВ схож с идиостилем ЭТ1.

Это позволяет сделать вывод о том, что идиостиль текстов ТВ (текстов заведомо известного автора — С.Д. Довлатова) схож с идиостилем спорного текста «Наши» (ЭТ1) (текста, автор которого по условиям эксперимента неизвестен) настолько, что можно говорить об атрибуции текста «Наши» как текста, принадлежащего перу С.Д. Довлатова. Однако вероятность принадлежности произведения «Наши», исходя из исследования, ниже 80 % (вывод сделан, исходя из того, что числовые значения параметров конечной модели, не превышают критического значения t-критерия Стьюдента, просчитанного для восьмидесятипроцентной вероятности принадлежности текста определённому автору).

Коэффициент корреляции между числовыми значениями матриц ТВ и ЭТ2 равен 0,81432738421146.

Коэффициент достаточно близок к единице, что говорит о близости качественных характеристик моделей ТВ и ЭТ2, то есть по результатам исследования идиостиль ТВ схож с идиостилем ЭТ2.

Это говорит о том, что идиостиль текстов ТВ схож с идиостилем спорного текста «Затеси» (ЭТ2) настолько, что можно говорить об атрибуции текста «Затеси» как текста, принадлежащего перу С.Д. Довлатова. Однако вероятность принадлежности произведения «Затеси», исходя из исследования, ниже 80 %

Так, анализ показал, что математическая модель текста «Затеси» несколько ближе к модели текстов С.Д. Довлатова, взятым в качестве тестовой выборки, то есть материала для построения исходной, образцовой, сравнительной модели, чем математическая модель произведения «Наши».

VI. Делаем выводы о том, какие из выстроенных в начале исследования гипотез нашли своё подтверждение.

Подтвердились следующие гипотезы:

Н_0/2 — автор ТВ и ЭТ2 — одно лицо, то есть автор ТВ и ЭТ2 — С.Д. Довлатов (по закону транзитивности: если автор ТВ — С.Д. Довлатов, а автор ЭТ1 и ТВ — одно лицо, то автор ЭТ2 — тоже С.Д. Довлатов).

Выводы о соответствии полученных результатов действительности. Из раздела VI апробации методики видно, что своё подтверждение по результатам исследования нашла как гипотеза, которая соответствует реальной действительности (Н_0/1 — автор произведения «Наши» — С.Д. Довлатов; и это правда), так и гипотеза, которая не имеет ничего общего с этой действительностью (Н_0/2 — автор произведения «Затеси» — С.Д. Довлатов, что на самом деле неправда, поскольку автором «Затесей» является В.П. Астафьев).

Анализ достоверности методики. Получается, что методика, используемая в современном автороведении, в том числе и судебном, работает, так сказать, лишь наполовину, то есть из двух случаев в одном она работает, а во втором — нет. Грубо, методика работает в 50 % случаев, то есть вероятность её срабатывания ½ или 50 % (если оценить вероятность (р) «срабатывания» методики более точно, то получится, что она укладывается в интервал [0; 0,552786]). То есть, по сути, это нерабочая методика. Применить эту методику, значит почти то же, что выбрать наугад из двух вариантов ответа (да или нет) на вопрос, является ли автором определённого текста конкретное лицо или нет.

Выводы. Исходя из результатов работы, предложенная методика, основанная на математической статистике и стилеметрическом анализе не может считаться универсальной для атрибуции текстов любого объёма, в том числе и в судебном автороведении.

Тем не менее, нельзя говорить о том, что методика является полностью нерелевантной для исследований. В данную статью не вошёл тщательный анализ «слабых мест» методики, но по результатам этого анализа она может успешно применяться при условии соблюдения следующих рекомендаций:

1. число параметров для идентификации автора по письменному речевому произведению должно быть не менее 45—50 единиц;

2. параметры должны представлять собой обширные синтаксические и морфологические классы. Например, можно взять все экспликаторы субъективной модальности, как то: вводные слова, модальные частицы, междометия, конструкции с именительным представления и пр.;

3. отбор параметров должен происходить на основе глубокого анализа ЯЛ автора текста-образца, причём в большем объёме именно на мотивационном уровне (возможно, также на вербально-семантическом);

4. тексты должны быть близки с точки зрения функциональных стилей;

5. методику можно дополнить вычленением из двух текстов (эталонного текста, то есть сравнительного образца и спорного текста), так называемых, квазисинонимичных лексем.

6. для разработки определения релевантных параметров имеет смысл попробовать также метод наименьшей энтропии (также должно быть построено дерево решений) или линейной регрессии.

Список литературы:

1.Баранов А.Н. Введение в прикладную лингвистику: Учебное пособие. — М.: Эдиториал УРСС, 2001. — 360 с.

2.Караулов Ю.Н. Русский язык и языковая личность. /Отв. ред. член-кор. Д.Н. Шмелев. — М.: Наука, 1987. — 263 с.

3.Родионова Е.С. Лингвистические методы атрибуции и датировки литературных произведение (К проблеме «Мольер-Корнель»). Автореферат дис. канд. филологич. наук. [Электронный ресурс] — Режим доступа. — URL: http://epir.ru/pragmat!/projects/corneille/files/autoreferat.pdf (дата обращения: 10.10.2012).

4.Топтыгина Е.Н. Средства выражения субъективно-модальных значений предположения и допущения в современном русском языке. [Электронный ресурс] — Режим доступа. — URL: http://www.dissercat.com/content/sredstva-vyrazheniya-subektivno-modalnykh-znachenii-predpolozheniya-i-dopushcheniya-v-sovrem#ixzz2N3EDjXgv (дата обращения: 15.01.2013).

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов

Оставить комментарий