Телефон: +7 (383)-202-16-86

Статья опубликована в рамках: XXIV Международной научно-практической конференции «В мире науки и искусства: вопросы филологии, искусствоведения и культурологии» (Россия, г. Новосибирск, 10 июня 2013 г.)

Наука: Филология

Секция: Прикладная и математическая лингвистика

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Литвинова Т.А., Середин П.В. ПОИСК ПРИЗНАКОВ ЛЖИ В ПИСЬМЕННОМ ТЕКСТЕ: СОВРЕМЕННЫЕ МЕТОДЫ И ПОДХОДЫ // В мире науки и искусства: вопросы филологии, искусствоведения и культурологии: сб. ст. по матер. XXIV междунар. науч.-практ. конф. – Новосибирск: СибАК, 2013.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов
Статья опубликована в рамках:
 
 
Выходные данные сборника:

 

ПОИСК  ПРИЗНАКОВ  ЛЖИ  В  ПИСЬМЕННОМ  ТЕКСТЕ:  СОВРЕМЕННЫЕ  МЕТОДЫ  И  ПОДХОДЫ

Литвинова  Татьяна  Александровна

канд.  филол.  наук,  науч.  сотр.  Регионального  центра  русского  языка  при  Воронежском  государственном  педагогическом  университете,  докторант,  г.  Воронеж

E-mail: 

Середин  Павел  Владимирович

канд.  физ.-мат.  наук,  с.  н.  с.  Воронежского  государственного  университета,  г.  Воронеж

E-mail: 

 

FINDING  LIE  MARKERS  IN  A  WRITTEN  TEXT

Litvinova  Tatyana

PhD  in  Philology,  scientific  fellow  of  Regional  Centre  of  Russian  Language  (Voronezh  State  Pedagogical  University),  Voronezh

Seredin  Pavel

PhD  in  Physics  and  Mathematics,  senior  scientific  fellow  of  Voronezh  State  University,  Voronezh

 

Авторы  выражают  глубокую  благодарность  Российскому  фонду  фундаментальных  исследований  за  финансовую  поддержку  проекта  (№  13-16-00016).

 

АННОТАЦИЯ

На  основе  анализа  научной  зарубежной  литературы  установлено,  что  выявление  маркеров  лжи  в  письменном  тексте  должно  проводиться  на  большом  корпусном  материале  реальных,  а  не  художественных  текстов.  Необходимо  применять  методы  NLP  для  автоматического  извлечения  значений  параметров  текстов  и  определять  веса  таких  параметров  с  использованием  современного  аппарата  матстатистики. 

ABSTRACT

On  the  basis  of  analysis  of  modern  foreign  studies  it  has  been  found  that  revealing  lie  markers  in  a  written  text  should  be  performed  on  large  corpus  of  real,  not  fiction,  texts.  It  is  essential  to  apply  NLP  methods  for  automatic  extraction  of  the  values  of  text  parameters  and  for  determining  the  weights  of  such  parameters  with  the  use  of  modern  methods  of  mathematic  statistics. 

 

Ключевые  слова:  лингвистика  лжи;  ложь,  маркеры  лжи,  текст,  корпусная  лингвистика. 

Keywords:  linguistics  of  lie,  lie,  lie  markers,  text,  corpus  linguistics.

 

Как  было  отмечено  нами  ранее  (см.  статью  Литвиновой  и  др.  «Прогнозирование  истинности/ложности  высказывания  как  одно  из  направлений  моделирования  личности  автора  письменного  текста»  в  настоящем  сборнике),  выявление  маркеров  лжи  в  письменном  тексте  (языковые  маркеры  лжи,  далее  —  ЯМЛ)  —  задача,  только  недавно  получившая  освещение  в  российской  лингвистике.  В  данном  вопросе  в  российской  науке  приоритет  принадлежит  психологам,  но  выводы  в  основном  интуитивны,  сделаны  для  отдельных  жанров  (в  частности,  показаний),  не  апробированы  на  большом  корпусном  материале  с  привлечением  математических  методов  анализа  данных. 

В  зарубежной  науке,  однако,  уже  несколько  лет  предпринимаются  попытки  поиска  маркеров  лжи  в  письменном  тексте  путем  применения  методов  статистической  обработки  и  обработки  естественного  языка  (NLP)[1].  Так,  в  2012  году  американские  учёные  из  SAS  Institute  разработали  своеобразный  детектор  лжи  —  программное  обеспечение  для  проверки  текстов  на  правдивость.  SAS  Institute,  известный  своими  разработками  систем  безопасности  для  банков  и  телефонных  компаний,  представил  программный  продукт,  который  анализирует  любой  текст  в  электронном  виде  (например,  содержание  электронной  почты)  и  находит  в  нём  признаки  лжи. 

«Языковые  конструкции  меняются,  когда  человек  неуверен,  сомневается  или  лжёт,  —  сообщил  Питер  Доррингтон  (Peter  Dorrington),  менеджер  SAS.  —  Наша  программа  сравнивает  основные  слова  и  грамматические  конструкции  с  текстами,  выбранными  в  качестве  образцов  или,  если  хотите,  эталонов  и  в  результате  обнаруживает  вероятную  неправду.  Это  может  не  быть  ложью  —  просто  неуверенность  или  сомнение»  [8].  Отметим,  что  человек  без  специальной  подготовки  определяет  ложность/истинность  письменного  сообщения  с  точностью,  лишь  на  немногим  превышающей  случайную  величину  [5].

Мы  не  можем  проверить  валидность  данной  программы,  т.  к.  ее  нет  в  открытом  доступе,  однако  факт  их  создания  говорит  о  внимании  к  данной  проблеме.  Мы  считаем,  что  современное  состояние  науки  пока  еще  не  позволяет  создавать  эффективные  программные  средства  для  идентификации  лжи  в  письменном  тексте,  однако  убеждены,  что  математические  методы  и  методы  такой  области  наук,  как  обработка  естественного  языка,  должны  использоваться  для  анализа  данных  и  установления  корреляций  между  тем  или  иным  языковым  параметром  и  истинностью/ложностью  текста.

Однако  письменная  речь  как  носитель  маркеров  лжи  лишь  недавно  стала  предметом  изучения  ученых  и  на  Западе.  В  основном  изучалась  устная  речь.  Первый  метод  зародился  в  1950-х  годах,  когда  Undeutsch  (он  и  ввел  в  оборот  термин  «лингвистика  лжи»)  разработал  технику  для  анализа  рассказов  детей,  содержащих  обвинения  взрослых  в  жестоком  обращении.  В  широком  смысле  между  ложными  и  правдивыми  высказываниями  есть  существенные  различия  [9].  Следовательно,  лжецов  можно  идентифицировать  —  не  по  тому,  что  они  говорят,  а  по  тому,  как  они  говорят. 

В  предыдущих  исследованиях  было  убедительно  доказано,  что  существуют  ЯМЛ  как  в  устной,  так  и  в  письменной  речи  (Buller,  Burgoon,  Buslig  and  Roiger  1996;  Burgoon,  Buller,  Afifi  and  Feldman  1996;  Zuckerman  et  al.  1981).  Материалом  такого  рода  исследований  в  зарубежной  науке  выступали  в  основном  интервью,  допросы,  наблюдения.  Большинство  исследований  связано  с  ручной  обработкой  данных.  В  связи  с  этим  необходимо  искать  объективные  маркеры,  которые  легко  вычислить  и  классифицировать.  К  тому  же  эти  ЯМЛ  должны  быть  независимыми  от  контекста.  Современные  возможности  NLP,  как  представляется,  помогут  установить  новые  ЯМЛ.

Работа  Automating  Linguistics-Based  Cues  for  Detecting  Deception  in  Text-based  Asynchronous  Computer-Mediated  Communication  (2004)  [12]  одна  из  первых  затрагивает  проблему  автоматизации  выявления  лжи  в  письменном  тексте.  Проведенный  авторами  эксперимент  проверял  эффективность  такого  подхода  на  материале  текстов  интернет-коммуникации,  не  предполагающих  мгновенный  ответ.  27  маркеров  из  предыдущих  исследований  были  объединены  в  9  групп.  Показано,  что  языковой  анализ  эффективен  для  выявления  лжи  в  тексте;  некоторые  из  проанализированных  маркеров  были  очень  эффективны,  другие  не  показали  эффективности;  были  выявлены  новые  эффективные  маркеры  лжи.  Показано,  что  установление  таких  параметров  невозможно  без  наличия  большого  корпуса  текстов  и  их  анализа  с  применением  NLP  (морфологических  и  синтаксических  парсеров,  таггеров  и  пр.). 

Авторы  указывают  на  то,  что  поиски  ЯМЛ  и  работы  по  автоматическому  распознаванию  лжи  ведутся  в  настоящее  время  обособленно,  что  неправильно.  До  настоящего  времени  компьютер  использовался  лишь  для  того,  чтобы  сделать  статистический  анализ,  а  значения  языковых  параметров  извлекаются  вручную  (Akehurst  et  al.  1995;  Höfer  et  al.  1996;  Köhnken  et  al.  1995;  Ruby  and  Brigham  1998;  Sporer  1997;  Vrij  et  al.  2000). 

Авторы  делают  вывод  о  том,  что,  несмотря  на  все  сложности,  автоматизированное  определение  лжи  в  тексте  —  достижимая  цель,  но  крайне  необходимы  дополнительные  исследования  для  того,  чтобы  найти  эффективные  маркеры  лжи  и  технические  средства  для  работы  с  более  сложными  маркерами.  Значительные  результаты,  полученные  в  данном  исследовании,  показали,  что  вычислительный  метод  является  очень  полезным  для  решения  данной  проблемы. 

Сложные  маркеры,  требующие,  например,  глубокого  семантического  анализа,  безусловно,  могут  быть  эффективны,  но  их  рассмотрение  замедляет  процесс  автоматизации  нахождения  маркеров. 

В  работе  Verification  and  Implementation  of  Language-Based  Deception  Indicators  in  Civil  and  Criminal  Narratives  (2008)  [3]  исследователями  ставилась  задача  определить  ложные  и  правдивые  сообщения  в  транскрибированных  текстах  с  использованием  NLP.  Исследователи  проанализировали  имеющие  работы  по  языковым  маркерам  лжи,  затем  была  проведена  автоматическая  разметка  имеющегося  корпуса.  После  этого  по  частотностям  параметров  текста  можно  определить,  ложный  или  правдивый  текст  перед  нами.  Отметим,  что  корпус  полностью  составлен  из  реальных  текстов  из  практики  работы  полиции  —  допроса,  показаний  участников  уголовного  дела  и  пр.  Каждый  текст  был  размечен  с  позиции  ложный/правдивый.  Математический  аппарат  –  дерево  регрессий.  Полученная  модель  определяла  ложность/правдивость  высказываний  с  точностью  69,7  %,  причем  93  %  ложных  высказываний  были  верно  классифицированы.  Отметим,  что  в  данном  случае  были  также  применены  экспертные  оценки,  и  математическая  модель  намного  превосходила  по  точности  распознавания  истинных/ложных  утверждений  экспертов.

Работа  On  Lying  and  Being  Lied  To:  A  Linguistic  Analysis  of  Deception  in  Computer-Mediated  Communication  (2008)  [6]  посвящена  исследованию  изменений  как  в  речи  лжеца,  так  и  в  речи  его  собеседника  на  материале  текстов  синхронной  интернет-коммуникации.  Анализ  242  транскрибированных  записей  обнаружил,  что  лжецы  продуцируют  более  длинные  тексты,  используют  больше  слов,  связанных  с  каналами  восприятия  (видеть,  слышать),  используют  меньше  местоимений  для  самореференций,  больше  —  для  наименования  других  людей.  Кроме  того,  мотивированные  лжецы  избегали  каузаций,  а  немотивированные  употребляли  много  отрицаний.  Партнеры  по  диалогу  также  изменяли  свое  речевое  поведение  в  случаях  бесед  со  лжецами,  хотя  и  не  знали  о  самом  факте  лжи.  Они  задавали  больше  вопросов,  предложения  становились  короче,  а  также  изменяли  определенные  характеристики  речи  в  соответствии  с  таковыми  у  лжецов.

О  важности  изучения  маркеров  лжи  именно  в  письменном  дискурсе  может  свидетельствовать  тот  факт,  что  к  примеру,  агентов  ФБР  для  выявления  лжи  в  показаниях  подозреваемых  учат  так  называемому  анализу  высказываний  (statement  analysis).  Перед  допросом  агент  просит  подозреваемого  сначала  изложить  на  бумаге  свою  версию  событий,  читает  ее,  анализирует  со  следующих  позиций:  частей  речи  —  это  основа  метода  (лицо  глаголов,  местоимений  и  пр.,  при  этом  содержание  текста  не  анализируется);  с  позиций  речевой  избыточности;  с  позиций  появления  слов  категории  возможности;  тема-рематическая  структура  предложения;  а  затем  уже  строит  допрос,  исходя  из  проведенного  анализа  (подробнее  см.  в  работе  сотрудницы  ФБР  S.H.  Adams  [2]).  Также  письменная  речь  в  силу  своей  природы  (материальный  носитель  всегда  имеется)  более  пригодна  для  анализа,  чем  речь  устная.  Важно:  необходимо  получить  от  испытуемого  образцы  правдивых  текстов  (например,  просят  написать,  как  он  провел  сегодняшний  день),  чтобы  знать,  что  для  него  является  нормой,  какие  отклонения  следует  искать  в  тексте.

Позже  в  своей  диссертации  (2002)  она  продолжила  и  развила  исследования  на  данную  тему.  База  исследования  —  реальные  тексты  60  подозреваемых  и  потерпевших,  истинность/ложность  которых  была  известна.  Построенная  автором  регрессионная  модель,  использовавшая  языковые  маркеры  лжи,  позволила  классифицировать  тексты  с  точностью  81,2  %.  Оценены  веса  каждого  параметра  текста  в  модели  определения  истинности/ложности.  Автор  делает  вывод,  что  исследование  подтвердило  гипотезу  Undeutsch  (1967)  о  том,  что  правдивые  тексты  отличаются  от  ложных  как  по  структуре,  так  и  по  наполнению.

Правоту  такого  подхода  доказывают  и  другие  поздние  исследования.  Так,  авторы  работы  2003  года  Lying  WordsPredicting  Deception  From  Linguistic  Styles  [7]  при  помощи  компьютерной  программы  составили  своеобразный  лингвистический  профиль  лжи  и  затем  предсказывали  ложность/истинность  высказываний  из  контрольной  выборки.  Исследование  показало,  что  особое  внимание  следует  уделять  не  содержательному  уровню  текста,  а  грамматическому,  в  частности,  служебным  словам  и  местоимениям.  Лживые  тексты  менее  сложны,  в  них  меньше  самоотсылок,  больше  отрицаний  и  слов  с  отрицательной  оценочностью.

Магистерская  диссертация  Zhang  (2010)  LingCues  —  A  Linguistic  Cues  Software  Tool  For  Text-based  Automatic  Deception  Detection  Research  [11]  посвящена  описанию  разработанного  автором  программного  обеспечения  (LingCues)  для  автоматизированного  определения  лжи  в  письменном  тексте.  Программа  автоматически  вычисляет  значения  параметров  текста,  которые,  по  предыдущим  исследованиям,  признаны  релевантными  для  решения  данной  задачи.  С  помощью  программы  можно  создать  новые  языковые  ключи  и  использовать  их  в  исследованиях. 

В  своей  магистерской  диссертации  Caroline  Amie  Connell  (2012)  [4]  систематизирует  и  продолжает  исследовать  языковые  маркеры  лжи.  Участники  эксперимента  писали  правдивые  и  лживые  утверждения  на  тему  Маркеры  были  разделены  на  4  группы:  связанные  с  негативными  эмоциями,  с  отстраненностью  от  автора;  с  желанием  показаться  правдивым,  с  высокой  мыслительной  нагрузкой,  связанной  с  ложью.  Было  показано,  что  вес  этих  маркеров  неодинаков  в  реальном  сообщении.  Опять  исследуются  тексты  интернет-коммуникации.  Опять  утверждается,  что  такие  тексты  легко  поддаются  NLP,  хотя  эта  задача  только  начинает  решаться.  Сделан  вывод,  что  маркеры  зависят  от  типа  личности  и  от  ситуации. 

Мы  видим,  что  почти  все  из  проанализированных  нами  работ  датированы  2011—2012  годами,  что  говорит  о  том,  что  данная  проблема  только  начинает  разрабатываться,  причем  разрабатываться  активно,  находится,  что  называется,  «на  переднее  крае»  науки.

Мы  считаем,  что  для  проверки  различительной  способности  маркеров  лжи,  обнаруженных  на  материале  других  языков  (в  основном  для  американского  английского),  и  выявления  новых  маркеров  следует  создать  корпус  текстов,  обработать  его  с  применением  современных  средств  NLP,  затем  оценить  веса  тех  или  иных  маркеров  для  выявления  ложного  текста.

Затем  ложные  тексты  можно  представить  аудитории  для  оценки  (аргументированной)  ею  степени  их  достоверности,  дабы  уяснить,  какие  из  маркеров  лжи  распознаются  адресатами.

При  выборе  характеристик  текста,  способных  быть  маркерами  лжи,  необходимо  в  первую  очередь  опираться  на  те,  которые  могут  быть  извлечены  из  текста  автоматически.  На  настоящий  момент  самыми  надежными  являются  морфологические  парсеры,  определенную  точность  дают  синтаксические  парсеры.  Семантические  анализаторы  к  настоящему  времени  дают  очень  много  ошибок  и  были  исключены  из  исследования. 

На  основе  многочисленных  оценок  разных  методов  и  парсеров  мы  выбрали  свободно  распространяемый  парсер  фирмы  Xerox  как  наиболее  надежный  и  достоверный,  а  также  предлагающий  широкие  возможности  в  плане  разнообразия  выявляемых  параметров.  Мы  выбрали  в  качестве  базовой  программы  для  анализа  письменного  текста  и  транскрибированных  записей  устной  речи  программу  GATE  (General  Architecture  for  Text  Extraction).  Далее  результаты  анализа  передаются  в  программу  для  статистического  анализа  данных:  дискриминантного,  регрессивного,  дерева  решений  нейронных  сетей  и  пр.  Исследования  предыдущих  авторов  показали,  что  все  эти  методы  могут  быть  использованы,  если  берутся  только  значимые  параметры  текста. 

Система  для  автоматизированного  выявления  лжи  в  письменном  тексте  может  быть  основана  на  методах  машинного  обучения,  с  помощью  которых  вычисляются  веса  маркеров,  рассмотренных  в  предыдущих  исследованиях.  Эти  маркеры  далее  могут  быть  использованы  для  создания  профиля  лживого  сообщения  в  этом  контексте.  Наконец,  значения  маркеров  в  сообщении  могут  быть  внесены  как  параметры  в  систему,  которая  обучается  суммировать  доказательства  для  предупреждения  о  высокой  вероятности  лжи  в  письменном  тексте.  Такой  подход  может  определить  разные  стратегии  лжи,  которые  появляются  в  разных  контекстах.  Таким  образом,  основной  чертой  системы  должна  стать  адаптивность  к  разным  контекстам. 

 

Список  литературы:

  1. Adams  S.H.  Communication  under  stress:  indicators  of  veracity  and  deception  in  written  narratives:  PhD  thesis.  —  Falls  Church,  Virginia,  2002.  —  148  p. 
  2. Adams  S.H.  Statement  Analysis:  What  Do  Suspects'  Words  Really  Reveal?  //  FBI  Law  Enforcement  Bulletin.  —  1996.  —  Vol.  65,  Iss.  10.  —  P.  12—20.
  3. Bachenko  J.,  Fitzpatrick  E.,  Schonwetter  M.  Verification  and  Implementation  of  Language-Based  Deception  Indicators  in  Civil  and  Criminal  Narrative  //  COLING  '08.  Proceedings  of  the  22nd  International  Conference  on  Computational  Linguistics.  —  2008.  —  Vol.  1.  —  P.  41—48.
  4. Connell  C.A.  Linguistic  Cues  to  Deception  Blacksburg:  M.A.  thesis.  Blacksburg,  VA,  2012.  —  92  p.
  5. Frank  M.G.,  Feeley  T.H.  To  catch  a  liar:  Challenges  for  research  in  lie  detection  training  //  Journal  of  Applied  Communication  Research.  —  2003.  —  №  31.  —  P.  58—75.
  6. Hancock  J.T.,  Curry  L.E.,  Goorha  S.  On  Lying  and  Being  Lied  To:  A  Linguistic  Analysis  of  Deception  in  Computer-Mediated  Communication  //  Discourse  Processes.  —  2008.  —  №  45.  —  P.  1—23. 
  7. Newman  M.L.,  Pennebaker  J.W.,  Berry  D.S.,  Richards  J.M.  Lying  words:  Predicting  deception  from  linguistic  style  //  Personality  and  Social  Psychology  Bulletin.  —  2003.  —  №  29.  —  P.  665—675.
  8. SAS  представляет  текстовый  детектор  лжи:  [Электронный  ресурс]  —  Режим  доступа.  —  URL:  http://www.membrana.ru/particle/2384  (дата  обращения  10.04.2013).
  9. Undeutsch  U.  Beurteilung  der  Glaubhaftigkeit  von  Aussagen  //  Handbuch  der  Psychologie.  —  1967.  —  №  11.  —  S.  26—181.
  10. Vrij  А.  Detecting  Lies  and  Deceit:  pitfalls  and  opportunities.  —  Chichester:  John  Wiley  &  Sons,  2008.  —  488  p.
  11. Zhang  Sh.  LingCues  —  A  Linguistic  Cues  Software  Tool  For  Text-based  Automatic  Deception  Detection  Research:  M.Sc.  thesis.  —  Soochow  University,  China,  2010.  —  54  p.
  12. Zhou  L.,  Burgoon  J.K,  Nunamaker  J.F.,  Twitchell  D.  Automating  linguistics-based  cues  for  detecting  deception  in  text-based  asynchronous  computer-mediated  communications  //  Group  Decision  And  Negotiation.  —  2004.  —  Vol.  13,  №  1.  —  P.  81—106.

 

[1]  Natural  language  processing  (обработка  естественного  языка,  NLP)  —  область  исследований  на  стыке  искусственного  интеллекта  и  математической  лингвистики,  использующая  компьютеры  для  изучения  и  порождения  естественного  языка.

Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий