Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: XXXVI Международной научно-практической конференции «Инновации в науке» (Россия, г. Новосибирск, 27 августа 2014 г.)

Наука: Технические науки

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Симанков В.С., Толкачев Д.М. ПОИСК ОТВЕТОВ НА ВОПРОСЫ В СЕТИ ИНТЕРНЕТ // Инновации в науке: сб. ст. по матер. XXXVI междунар. науч.-практ. конф. № 8(33). – Новосибирск: СибАК, 2014.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

 

ПОИСК  ОТВЕТОВ  НА  ВОПРОСЫ  В  СЕТИ  ИНТЕРНЕТ

Симанков  Владимир  Сергеевич

д-р.  техн.  наук,  профессор,  Кубанский  государственный  технологический  университет,  профессор  кафедры  Компьютерных  технологий  и  информационной  безопасности,  РФ,  г.  Краснодар

E-mailvs@simankov.ru

Толкачев  Демид  Максимович

аспирант  кафедры  Компьютерных  технологий  и  информационной  безопасности,  Кубанский  государственный  технологический  университет,  РФ,  г.  Краснодар

E-mail:  Gendalf373@rambler.ru

 

FINDING   ANSWERS  TO  QUESTIONS  ON  THE  INTERNET

 

Vladimir Simankov

doctor of Technical Sciences, Professor, Kuban State Technological University, Professor of Computer Technology and Information Security department, Russia, Krasnodar

 

Demid Tolkachev

 

postgraduate student of Computer Technology and Information Security department, Kuban State Technological University, Russia, Krasnodar

 

 

АННОТАЦИЯ

В  статье  приведены  методические  положения  по  поиску  ответов  на  вопросы  в  сети  Интернет  и  показана  практическая  эффективность  предложенного  подхода.

ABSTRACT

The  paper  presents  methodical  aspects  to  finding  answers  to  questions  on  the  Internet  and  shows  the  practical  effectiveness  of  the  proposed  approach.

 

Ключевые  слова:  вопрос;  ответ;  тернарное  выражение;  существительное;  глагол.

Keywords:  question;  answer;  ternary  expression;  noun,  verb.

 

Автоматическое  получение  кратких  и  конкретных  ответов  на  вопросы  пользователя  является  актуальным  направлением  развития  информационных  технологий.  Для  решения  этой  задачи  в  качестве  источника  данных  и  знаний  целесообразно  использовать  сеть  Интернет.  Тогда  вопрос  становится  эквивалентен  запросу  к  поисковой  системе  в  сети  Интернет,  а  ответы  будут  содержаться  в  текстах  найденных  веб-страниц.

Для  обработки  вопроса  и  генерации  ответа  из  текстового  массива  обычно  используются  четыре  вида  анализа:  графематический,  морфологический,  синтаксический  и  семантический  [1].

Предложим  подход  к  поиску  ответов  на  вопросы,  в  той  или  иной  степени  использующий  все  основные  виды  анализа  и  основанный  на  принципах  работы  системы  START  [4].  Относительно  видов  анализа  его  можно  представить  так:

·     Графематический  анализ  —  выделение  слов  и  устойчивых  словосочетаний.

·     Морфологический  анализ  —  определение  характеристик  слов  и  выделение  словарных  основ.

·     Синтаксический  анализ  —  сопоставление  структуры  вопросительного  предложения  со  структурой  ответа.  Использование  шаблонов  совместно  с  результатами  морфологического  анализа  (тернарные  выражения  +  S-правила  +  Лексикон).

·     Семантический  анализ  —  учёт  синонимичных  и  гипонимических  замен  (WordNet).

Рассмотрим  подробнее  синтаксический  анализ. 

В  словаре,  подобном  Лексикону,  создаётся  набор  абстрактных  S-правил,  по  которым  могут  строиться  тернарные  выражения  —  выражения  вида  <объект  отношение  субъект>.  В  качестве  объектов/субъектов  одних  тернарных  выражений  могут  выступать  другие.  И  вопрос,  и  каждое  из  анализируемых  предложений  разбивается  на  тернарные  выражения  с  помощью  результатов  морфологического  анализа  и  специального  парсера.  Далее  по  тернарным  выражениям  вопроса  и  соответствующим  им  абстрактным  S-правилам  формируется  шаблон,  на  соответствие  которому  проверяются  предложения,  потенциально  содержащие  ответ.  Шаблон  представляет  собой  набор  элементов,  каждый  из  которых  может  быть  одним  или  несколькими  тернарными  выражениями.  Если  набор  тернарных  выражений  предложения  совпадает  с  одним  из  элементов  шаблона,  то  считается,  что  в  предложении  с  высокой  долей  вероятности  содержится  ответ.

Тернарные  выражения  вопроса  формируются  в  соответствии  с  рядом  синтаксических  правил.  Их  использование  зависит  от  вида  вопросительного  предложения.  Достаточно  полная  классификация  вопросительных  предложений  дана  в  [2].

Если  вопрос  не  содержит  вопросительных  слов  и  определённых  частиц,  он  считается  общим  вопросом  первого  типа.  В  этом  случае  используется  синтаксическое  правило,  утверждающее,  что  структура  такого  вопроса  соответствует  утвердительному  предложению.  В  нём  осуществляется  поиск  существительных  и  глаголов,  первое  найденное  существительное  считается  подлежащим,  первый  следующий  за  ним  глагол  —  сказуемым.  Они  составляют  объект  и  отношение  главного  тернарного  выражения  вопроса  Tmain.  Если  после  подлежащего  глагола  нет,  сказуемое  отсутствует,  и  тогда  ищется  первое  существительное,  а  если  их  нет  —  прилагательное,  которые  будут  считаться  субъектом,  а  в  качестве  отношения  будет  выступать  подразумеваемый  глагол  «является».  Если  после  сказуемого  в  вопросе  идёт  инфинитив,  он  считается  субъектом  Tmain,  иначе  субъектом  считается  первое  следующее  за  сказуемым  существительное,  если  их  нет  —  наречие.  Если  после  сказуемого  нет  ничего,  Tmain  является  неполным.  Если  же  в  Tmain  содержится  только  объект,  поиск  ответов  прекращается.  Если  в  Tmain  попали  не  все  слова  вопроса,  после  его  формирования  происходит  генерация  второстепенных  тернарных  выражений.  Объект,  отношение  и  субъект  Tmain  проверяются  на  наличие  вокруг  них  прилагательных,  существительных  и  наречий.  При  этом  существительные  соотносятся  с  прилагательными,  причастиями  и  другими  существительными,  глаголы  –  с  деепричастиями  и  наречиями,  инфинитив  —  с  существительными,  деепричастиями  и  наречиями,  сами  наречия  в  проверке  не  участвуют.  Происходит  образование  тернарных  выражений  вида:  <существительное  является  прилагательное>,  <существительное  является  причастие>,  <существительное  соотносится  с  существительное>,  <глагол  как  деепричастие>,  <глагол  каким  образом  наречие>,  <инфинитив  соотносится  с  существительное>,  <инфинитив  как  деепричастие>,  <инфинитив  каким  образом  наречие>.  И  при  формировании  Tmain,  и  в  этом  процессе  необходим  учёт  однородных  членов  предложения.  Например,  вопрос  «Сверхзвуковой  истребитель  летает  быстро  и  красиво?»  преобразуется  к  двум  тернарным  выражениям:

·     Tmain  —  <истребитель  летает  (быстро  и  красиво)>;

·     второстепенному  —  <истребитель  является  сверхзвуковой>.

Если  после  описанной  процедуры  в  вопросе  по-прежнему  остались  слова,  не  включённые  в  тернарные  выражения,  осуществляется  дополнительный  анализ.  Он  заключается  в  поиске  глаголов,  не  включённых  в  Tmain.  Если  они  найдены,  вокруг  них  образуются  дополнительные  тернарные  выражения  по  принципу  Tmain,  т.  е.  глаголы  будут  являться  отношениями  в  формируемых  тернарных  выражениях,  а  объекты  и  субъекты  будут  искаться  среди  ещё  не  включённых  в  другие  тернарные  выражения  существительных,  инфинитивов  и  наречий.  Вокруг  дополнительных  тернарных  выражений  также  формируются  второстепенные.  На  этом  процесс  прекращается.

Следует  заметить,  что  предложенный  подход  не  гарантирует  включение  всех  слов  произвольного  общего  вопроса  первого  типа  в  тернарные  выражения.  Однако  вероятность  нахождения  ответов,  в  точности  соответствующих  большому  числу  нюансов,  крайне  мала,  поэтому  более  глубокий  анализ  вряд  ли  имеет  существенную  практическую  ценность.

Если  вопрос  содержит  определённые  частицы,  он  считается  общим  вопросом  второго  типа.  При  этом  частицы  «разве»,  «неужели»  и  «ужели»  могут  быть  проигнорированы,  и  тогда  вопрос  автоматически  становится  общим  вопросом  первого  типа.  Если  же  в  вопросе  используется  частица  «ли»,  ситуация  несколько  меняется.  Предполагается,  что  в  этом  случае  сказуемое  идёт  перед  подлежащим,  соответственно,  это  необходимо  учитывать  при  формировании  Tmain.  Однако  возможны  и  случаи,  когда  порядок  слов  продолжает  соответствовать  утвердительному  предложению.  Поэтому  имеет  смысл  проверять  слово,  идущее  перед  частицей  «ли»:  если  это  глагол  —  порядок  слов  обратный,  если  существительное  —  прямой.  Отдельного  разбора  требуют  вопросы,  начинающиеся  с  «нужно  ли»  и  тому  подобного.  В  них,  как  правило,  пропущено  подлежащее,  а  после  «ли»  идёт  инфинитив,  поэтому  Tmain  примет  вид:  <[дополнение]  инфинитив  (нужно,  следует  и  пр.)>.

В  остальном  при  формировании  тернарных  выражений  общих  вопросов  второго  типа  следует  придерживаться  уже  обозначенных  принципов.

Если  вопрос  начинается  с  одного  из  вопросительных  слов,  он  является  специальным  вопросом  некоторого  вида.  Порядок  подлежащего  и  сказуемого  в  специальных  вопросах  достаточно  нечёткий,  поэтому  нужно  анализировать  начало  вопроса  на  предмет  обнаружения  порядка  следования  существительных  и  глаголов.  Разберём  отличия  при  формировании  тернарных  выражений  специальных  вопросов  от  общих.

Вопросительное  слово  «кто»  подразумевает  наличие  существительного  в  именительном  падеже.  Tmain  принимает  вид  <кто  глагол  [дополнение]>,  где  вместо  «кто»  должно  стоять  существительное  в  именительном  падеже,  причём  любое,  не  фигурирующее  в  самом  вопросе.  Т.  е.  про  объект  Tmain  известны  лишь  некоторые  сведения.

Вопросительное  слово  «что»  несколько  сложнее:  если  после  него  идёт  глагол,  оно  подразумевает  существительное  в  именительном  или  винительном  падежах,  если  же  инфинитив  —  то  подразумевает  инфинитив  или  глагол.  Tmain  принимает  вид:  <существительное  (глагол  или  инфинитив)  что>.

Вопросительные  слова  какой,  каков  и  который  влияют  не  на  Tmain,  а  на  второстепенное  тернарное  выражение,  связанное  с  объектом  Tmain:  <объект  Tmain  является  (какойкаковкоторый)>.  На  месте  этих  вопросительных  слов  должно  быть  прилагательное.

Вопросительное  слово  «чей»  также  влияет  на  второстепенное  тернарное  выражение,  но  ему  могут  соответствовать  одушевлённые  существительные  или  образованные  от  них  прилагательные.  Формируется  тернарное  выражение:  <объект  Tmain  является  чей>.

Вопросительные  слова  «где»,  «куда»  и  «откуда»  предполагают  наличие  существительного.  Tmain  примет  вид  <существительное  глагол  (гдекудаоткуда)>.

Вопросительное  слово  «когда»  может  подразумевать  как  наличие  существительного,  так  и  наречия,  но  они  должны  быть  связаны  с  понятием  времени.  Tmain  примет  вид  <существительное  глагол  когда>.

Вопросительные  слова  «зачем»,  «отчего»  и  «почему»  предполагают  не  столько  какую-либо  часть  речи,  сколько  наличие  специальных  слов,  служащих  маркерами  ответа:  «чтобы»,  «дабы»,  «ибо»,  «поскольку»,  «так  как»,  «потому  что»,  «по  причине»,  «вследствие»  и  т.  д.  Отсюда  следует,  что  в  этом  случае  нужно  предусмотреть  специальный  механизм  проверки,  не  укладывающийся  в  рамки  тернарных  выражений.

Вопросительное  слово  «как»  предполагает  наличие  наречия,  деепричастия  или  существительного  в  предложном  падеже.  Tmain  примет  вид  <существительное  глагол  как>.

Вопросительное  слово  «сколько»  предполагает  наличие  числительного.  Tmain  примет  вид  <существительное  глагол  сколько>.

К  отдельной  категории  можно  отнести  вопросы  типа  определение.  Такие  вопросы  могут  состоять  из  одного  слова  (определения),  с  необязательной  прибавкой  к  этому  слову  «  —  это»  в  конце,  или  же  начинаться  со  слов  «что  такое»,  «кто  такой»  «что  есть»  и  пр.  Tmain  для  вопросов  типа  определение  можно  сформировать  так:  <определение  «определительный  глагол»  существительное>,  где  под  «определительным  глаголом»  подразумевается  конструкция  «  —  это»  или  один  из  глаголов  типа  «есть»,  «является»,  «представляет»  и  пр.  Второстепенные  тернарные  выражения  вопросу  данного  типа,  как  правило,  не  нужны.

Поиск  ответа  представляет  собой  процедуру  нахождения  в  предложениях  текста  тернарных  выражений  вопроса.  При  этом  если  какое-либо  предложение  содержит  полный  перечень  тернарных  выражений  вопроса,  то  оно  является  ответом,  а  аналогичными  ответами  могут  считаться  только  другие  предложения,  также  содержащие  все  эти  тернарные  выражения.

При  отсутствии  специальной  базы  знаний  и  с  учётом  слабой  степени  формализованности  русского  языка  частой  будет  ситуация,  когда  не  найдётся  ни  одного  полного  соответствия  шаблона  и  тернарных  выражений  предложения,  хотя  предложение  и  будет  содержать  ответ.  Поэтому  следует  модифицировать  методику,  используемую  в  системе  START,  и  определять  относительную  степень  соответствия  предложения  шаблону.  В  случае  отсутствия  полного  соответствия  вводится  критерий  минимально  допустимого  соответствия:  предложение,  потенциально  содержащее  ответ,  должно  в  достаточной  степени  соответствовать  Tmain  вопроса.  Под  достаточной  степенью  понимается  такое  соответствие,  когда  по  крайней  мере  один  из  однородных  членов  объекта,  отношения  и  субъекта  Tmain  вопроса  есть  и  в  предложении.  В  рассмотренном  примере  с  истребителем  ответом  будет  считаться  предложение:  «Истребитель  летает  быстро».  Все  предложения,  потенциально  содержащие  ответ,  ранжируются  по  степени  соответствия  тернарным  выражениям  вопроса,  и  в  качестве  ответа  выбираются  те,  которые  имеют  максимальную  степень  соответствия.

Семантический  анализ  целесообразно  применять  в  качестве  аналога  словаря  WordNet.  Проверка  предложений  по  шаблонам  будет  учитывать  случаи,  когда  в  предложении  содержатся  синонимы  или  гипонимы  слов  из  вопроса.  Это  существенно  повысит  вероятность  нахождения  ответа.

Проведём  практическую  проверку  предложенного  подхода  к  поиску  ответов  на  вопросы,  используя  следующий  метод:

·     вопрос  отправляется  поисковой  системе  Яндекс  и  выделяются  ссылки  на  источники;

·     осуществляется  генерация  проблемно-ориентированных  авторефератов  [3]  по  тексту  источников;

·     генерируется  общий  автореферат  из  полученных  с  использованием  разработанной  нами  методики,  основанной  на  анализе  степени  подобия  текстов;

·     в  тексте  общего  автореферата  производится  поиск  ответов  предложенным  подходом.

Осуществим  поиск  ответа  на  простой  вопрос  «Где  обитает  лиса?»  описанным  выше  методом.  Были  получены  следующие  ответы:

1.  Достаточно  сказать,  что  лисицы  заселяют,  хотя  и  с  разной  плотностью,  все  ландшафтно-географические  зоны,  начиная  с  тундры  и  субарктических  лесов  и  вплоть  до  степи  и  пустынь,  включая  горные  массивы  во  всех  климатических  зонах.  При  этом  лисица  водится  не  только  в  дикой  природе,  но  и  в  культурных  ландшафтах,  а  также  на  окраинах  городов,  в  том  числе  больших  (таких  как  Киев  и  Варшава;  в  Лондоне  лисицы  весьма  обычны  на  окраинах,  а  иногда  появляются  и  в  центральной  части  города).

2.  Лисица  обитает  почти  на  всей  территории  Европы,  Азии,  Северной  Америки,  даже  на  севере  Африки,  акклиматизирована  в  Австралии;  двадцать  видов  лисиц  населяют  множество  зон.

Из  ответа  1)  видно,  что  он  не  мог  быть  получен  без  использования  словаря  синонимов  и  гипонимов,  поскольку  вместо  «лиса»  в  источниках  фигурирует  «лисица»,  а  вместо  «обитает»  —  «заселяют»  и  «водится».  Чёткое  сравнение  предложений  с  шаблоном  также  не  могло  дать  подобный  ответ,  поскольку  вопрос  содержит  только  одно  тернарное  выражение  (без  учёта  синонимов  и  гипонимов):  <лиса  обитает  где>,  тогда  как  выбранные  ответы  куда  сложнее.

Следует  заметить,  что  система  START  на  аналогичный  вопрос  «Where  do  foxes  live?»  («Где  живут  лисы?»)  сгенерировала  следующий  ответ:  «Average  life  span  (in  years):  14»  («Средняя  продолжительность  жизни  (в  годах):  14»),  т.  е.  фактически  ответила  на  вопрос  «Сколько  лет  живут  лисы?».  Таким  образом,  START  не  всегда  правильно  интерпретирует  специальные  вопросы. 

В  результате  проведённого  исследования  можно  сделать  следующие  выводы:

·     Теоретические  исследования  показали,  что  введение  проблемно-ориентированного  автореферирования  как  средства  обработки  текста  даёт  возможность  более  точно  формировать  ответы  на  вопросы.

·     С  использованием  и  адаптацией  принципов,  заложенных  в  англоязычную  систему  START,  разработаны  методические  положения  автоматического  поиска  ответов  на  вопросы  на  русском  языке.

·     Разработанные  методические  положения  обладают  практической  эффективностью  и  могут  использоваться  в  вопросно-ответных  системах.

 

Список  литературы:

  1. Ким  К.Х.,  А.П.  Савинов.  Синтаксический  анализатор  для  вопросно-ответной  системы.  Известия  Томского  политехнического  университета,  —  Т.  315.  —  №  5,  —  2009.  —  с.  133—138.
  2. Мозговой  Максим  Владимирович.  Машинный  семантический  анализ  русского  языка  и  его  применения.  Диссертация  на  соискание  ученой  степени  кандидата  физико-математических  наук.  Санкт-Петербург,  2006.  —  116  с.
  3. Симанков  В.С.,  Толкачев  Д.М.  Проблемно-ориентированное  автореферирование  как  инструмент  поиска  данных  и  знаний.  Наука  вчера,  сегодня,  завтра  /  Сб.  ст.  по  материалам  XIV  междунар.  науч.-практ.  конф.  №  7  (14).  Новосибирск:  Изд.  «СибАК»,  2014.  —  с.  31—35.
  4. START,  Natural  Language  Question  Answering  System  [Электронный  ресурс]  —  Режим  доступа.  —  URL:  http://start.csail.mit.edu/index.php  (дата  обращения  20.08.2014).

 

Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.