Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: XXIII Международной научно-практической конференции «Технические науки - от теории к практике» (Россия, г. Новосибирск, 10 июля 2013 г.)

Наука: Технические науки

Секция: Информатика, вычислительная техника и управление

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Трахтенгерц М.С. КОНЦЕПЦИЯ ИНТЕГРАЦИИ БИБЛИОГРАФИЧЕСКИХ ДАННЫХ МЕТОДАМИ SEMANTIC WEB // Технические науки - от теории к практике: сб. ст. по матер. XXIII междунар. науч.-практ. конф. – Новосибирск: СибАК, 2013.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов
Статья опубликована в рамках:
 
Выходные данные сборника:

 

КОНЦЕПЦИЯ  ИНТЕГРАЦИИ  БИБЛИОГРАФИЧЕСКИХ  ДАННЫХ  МЕТОДАМИ  SEMANTIC  WEB

Трахтенгерц  Михаил  Самойлович

канд.  тех.  наук,  вед.  научный  сотрудник  Объединенного  института  высоких  температур  РАН,  г.  Москва

E-mail:  trachtengerts@mtu-net.ru

 

THE  CUNCEPTION  OF  BIBLIOGRAPHIC  DATA  INTEGRATION  BY  SEMANTIC  WEB  APPROACH

Trachtengerts  Michael

candidate  of  Science,  Leading  Researcher  of  Joint  Institute  for  High  Temperatures,  Russian  Academy  of  Sciences,  Moscow,  Russian  Federation

 

АННОТАЦИЯ

Развитие  науки  сопровождается  накоплением  большим  объемом  новых  данных.  До  настоящего  времени  основным  способом  доведения  этой  информации  до  исследователей  было  создание  банков  данных  (БД)  по  отраслям  знаний.  Теперь  актуальной  становится  задача  поиска  нужных  сведений  в  пределах  совокупности  БД.  Показано,  что  методы  Semantic  WEB  (специальный  формат  RDF,  идентификатор  URI,  универсальный  стандарт  для  сетевого  обмена  онтологической  информацией  Web  Ontology  Language  —  OWL)  эффективны  при  интеграции  тематических  научных  БД.

ABSTRACT

Development  of  science  is  connected  with  appearance  of  large  volumes  of  new  data.  The  main  way  to  supply  this  information  to  researchers  until  now  there  was  a  creation  of  the  databanks  (DB)  in  different  branches  of  knowledge.  Now  we  see  the  necessity  to  mine  knowledge  and  needed  data  within  sets  of  DB.  I  show  here  that  Semantic  WEB  methods  (the  specific  RDF  format,  the  URI  identifier,  the  universal  standard  for  exchange  of  ontological  information  —  Web  Ontology  Language,  OWL)  are  effective  at  integration  of  thematic  scientific  DB.

 

Ключевые  слова:  интеграция  БД;  научные  БД;  поиск  данных;  RDF;  URI;  OWL.

Keywords:  Semantic  WEB;  DB  integration;  RDF;  URI;  OWL;  knowledge  mining.

 

Работа  выполнена  при  поддержке  гранта  РФФИ  —  проект  №  13-07-00218.

 

По  мере  развития  науки  все  в  больших  масштабах  происходит  накопление  получаемых  фактических  данных  и  теоретических  представлений.  Своевременный  и  необременительный  доступ  к  ним  ученых  в  значительной  мере  определяет  темпы  дальнейшего  развития  научного  знания.  В  настоящее  время  этот  вызов  находит  свой  ответ  со  стороны  науки  преимущественно  в  виде  создания  информационно-поисковых  систем  и  банков  данных,  накапливающих  информацию  в  конкретных  научных  областях,  систематизирующих  ее  и  предоставляющих  нужные  потребителю  сведения  автоматизированными  методами  на  основании  формализованных  запросов.  Релевантность,  т.  е.  соответствие  документа-кандидата  на  включение  в  список  ответа  на  запрос,  определяется  чаще  всего  по  перечню  ключевых  слов  и/или  по  подходящему  фрагменту,  извлекаемого  из  полного  текста  документа.  Запрос  к  таким  системам  представляет  собой  отрывки  текста,  например,  последовательность  букв,  семантика  которых  известна  человеку,  задающему  запрос,  но  не  автоматизированной  системе.  Эти  тексты  могут  быть  связаны  между  собой  логическими  (И,  ИЛИ,  НЕ)  и  другими  отношениями,  отсеивающими  нежелательные  по  каким-то  причинам  документы.  Современные  базы  данных  (БД)  уменьшают  возникающий  информационный  шум  различными  приемами,  например,  вводя  в  записи  идентифицирующие  теги  (автора,  названий  статьи,  журнала  и  т.  д.).  Тем  не  менее,  полнота  информации,  выдаваемой  БД  по  запросам  ученых,  далеко  не  достаточна.  Существует  много  объективных  причин  для  пропуска  нужных  данных,  в  том  числе  синонимия,  использование  устаревающей  или,  наоборот,  недавно  введенной  терминологии  и  др.

По  мере  того,  как  все  больше  БД  предоставляют  свои  услуги  через  Интернет,  возникает  проблема  адекватного  понимания  содержащейся  в  них  информации.  Попытки  добиться  унификации  в  системе  тегов  приводят  к  некоторому  улучшению,  но  не  решают  ее  полностью.  Браузеры  и  специализированные  поисковые  машины,  осуществляющие  поиск  данных  научного  значения  непосредственно  в  Интернете,  не  обеспечивают  необходимого  уровня  семантического  анализа  документов  и  «заваливают»  пользователя  подборками  в  тысячи  и  десятки  тысяч  документов,  предоставляя  ему  самостоятельную  работу  по  выбору  из  них  достаточно  адекватных.

Перспектива  качественного  скачка  в  поиске  информации  появилась  2001  году,  когда  Тим  Бернерс-Ли,  Дж.  Хендлер  и  О.  Лассила  [5]  выдвинули  принципиально  новую  концепцию  интернета  для  данных  —  Semantic  WEB.  Отметим,  что  Бернерс-Ли  был  одним  из  создателей  известной  всем  сейчас  версии  Интернета.  В  новое  понятие  они  вложили  представление  о  будущей  сети,  когда  в  содержание  страниц  будет  вноситься  определенная  структура,  которая  позволит  программным  агентам  (браузерам  и  специализированным  поисковикам)  понимать  их  смысл  и  выполнять  предписания  пользователей.  Взаимодействуя  в  сети,  агенты  должны  будут  иметь  для  каждого  ресурса  формальное  представление  значения.

Для  однозначной  спецификации  значений  представленных  в  публикуемых  документах,  авторы  [5]  предлагают  использовать  методы,  применяемые  в  онтологиях.  Онтология,  рассматриваемая  ими  как  подлинное  ядро  Semantic  Web,  —  это  система  понятий  предметной  области,  которая  представлена  как  набор  принятых  в  научной  или  другой  среде  и  понятных  специалистам  сущностей,  соединенных  различными  отношениями.  Именно  онтология  представляет  знания  в  виде  формальной  структуры,  доступной  для  компьютерной  обработки.  В  2004  году  World  Wide  Web  Consortium  (W3C)  предложил  универсальный  стандарт  для  сетевого  обмена  онтологической  информацией  —  Web  Ontology  Language  (OWL).  С  помощью  OWL  эксперты  предметной  области  и  разработчики  приложений  могут  создавать,  модифицировать  и  соединять  различные  онтологии,  поддерживая  в  Интернет  присутствие  своей  области.

Хотя  задуманная  идея  Semantic  Web  относится  к  ресурсам  любой  тематики  (бизнес,  искусство,  политика  и  т.  п.),  именно  естественнонаучные  дисциплины  образуют  наиболее  подходящую  «площадку»  для  отработки  новых  концепций.  Понятийный  багаж  таких  дисциплин  как  физика,  химия,  астрономия  и  др.  уже  исходно  достаточно  формализован,  чтобы  лечь  в  основу  онтологического  описания.  Тем  самым,  открывается  принципиальная  возможность  интеграции  научных  данных  за  счет  спецификации  содержимого  разнородных  источников.  Среди  других  возможностей  Semantic  WEB  —  автоматизация  обработки  текстов,  высокоточный  информационный  поиск,  средства  логического  вывода  и  проч.  В  нашей  статье  [1]  были  рассмотрены  уже  реализованные  примеры  интеграции  данных  по  физическим  свойствам  материалов  с  использованием  новой  концепции,  что  говорит  о  ее  большом  потенциале.  В  то  же  время,  несмотря  на  отдельные  успехи,  нельзя  сказать,  что  идея  Semantic  WEB  нашла  широкое  применение.  По-видимому,  это  объясняется  как  непривычностью  предлагаемого  похода,  так  и  необходимостью  проведения  дополнительных  работ  по  ее  внедрению.

В  2006  году  Тим  Бернерс-Ли  [4]  выдвигает  идею,  являющуюся  порождением  и  развитием  концепции  Semantic  Web,  которая  смещает  главный  акцент  на  публикацию,  так  называемых,  «открытых  связанных  данных».  Другой  источник  этой  идеи  —  возникшее  примерно  в  те  же  годы  движение  за  «открытые  данные»,  прежде  всего,  в  области  политики,  административного  управления,  финансов  и  др.  [7].  Среди  организаций,  практикующих  открытую  публикацию  своих  данных  правительства  ряда  стран,  Всемирный  банк,  ООН,  «Товарищество  в  области  возобновляемых  источников  энергии»  (REEEP)  и  многие  др.  (подробный  обзор  см.  [3]).  Естественно,  что  высказанные  выше  идеи  о  путях  улучшения  поиска  необходимых  данных  через  Интернет  применимы  только  для  данных,  предоставляемых  в  общее  пользование.

Данные  по  этой  концепции  считаются  открытыми,  если  они  не  только  доступны  обществу,  но  и  при  соблюдении  ряда  других  принципов:  полнота  данных,  свобода  распространения  без  каких-либо  ограничений  в  виде  авторских  прав,  патентов  и  прочих  механизмов  контроля.  При  этом  само  освобождение  от  ограничений  обеспечивается  посредством  публичных  лицензий,  например  выдаваемых  бесприбыльной  организацией  Creative  Commons,  целью  которой  является  легальное  распространение  и  использование  знаний  и  результатов  творчества.  Естественно,  это  может  затронуть  интересы  обладателей  интеллектуальной  собственности,  которые  не  будут  следовать  этим  правилам.

Предполагается,  что  потенциал  систем  открытых  данных  в  полной  мере  проявится,  когда  они  будут  конвертированы  в  систему  «связанных  открытых  данных».  Связанность  означает,  что  будет  разработана  возможность  перехода  от  одного  документа  к  другому,  у  которых  система  поиска  обнаруживает  общие  сущности,  зафиксированные  в  онтологиях.  Это  обеспечивает  семантическую  устойчивость  процесса  поиска.  Она  осуществляется  путем  представления  документов  в  специальном  формате  RDF,  который  позволяет  идентифицировать  элементы,  которые  содержит  документ.  В  этой  схеме  для  всех  объектов  используются  URI  идентификаторы,  позволяющие  выделять  их  посредством  браузера  как  индивидуальные  данные.  При  полном  развитии  системы  данные  будут  связаны  с  другими  данными,  образуя  единый  контекст,  доступный  пользователю.

Опишем  некоторые  новые  понятия.  Формат  RDF  не  отменяет  и  не  заменяет  чтения  документов,  помещенных  в  Интернет,  по  протоколу  HTTP.  Он  является  дополнительным  слоем  описания  смыслового  содержания  документа,  с  новых  позиций  развивающий  уровень  метаданных  в  XML  и  других  подобных  языках.  Его  принципом  является  то,  что  каждая  присутствующая  в  документе  сущность  сопровождается  семантической  триадой,  которая  называется  триплетом.

«субъект  —  предикат  —  объект»,

Субъектом  в  триплете  может  быть  адрес  документа  в  Интернет  (традиционная  ссылка),  предикатом  —  запись  указания  на  понятие,  связывающее  сущность  и  свойство,  объектом  —  текст  этого  имени  (автора,  организации,  свойства  и  т.  п.).  Таким  образом  описываются  все  присутствующие  в  документе  сущности.  В  целом  они  могут  составить  довольно  сложный  граф.  В  рассматриваемой  системе  традиционная  ссылка  URL  заменяется  совместимым  с  ней  более  точным  адресом  URI  (Uniform  Resource  Identifiers),  который  показывает  местоположение  в  документе  самой  сущности.  Это  позволяет  выйти  на  интересующий  потребителя  объект  без  вызова  полной  интернет-страницы.

С  другой  стороны,  триплетная  структура  формата  RDF  при  использовании  в  ней  URI  позволяет  системе  автоматически  построить  граф,  связывающий  источники  (субъекты)  с  совпадающими  предикатами  и  объектами.  В  этом  случае  специалист  может  легко  переходить  по  этому  графу  от  одного  документа,  релевантного  его  запросу,  к  другим,  минуя  процесс  новых  запросов.

Естественно,  что  при  таком  процессе  доступа  к  данным,  размещаемых  во  множестве  документов  различного  типа,  мы  сталкиваемся  со  статусами  этих  документов,  выходя  за  пределы  форматов  записи  их  самих.  Содержание  документов  может  быть  полностью  закрыто  для  широкой  публики,  открыто  с  ограничениями  и  быть  открытым  для  всех.  Понятие  «открытость»  здесь  используется  в  смысле,  упомянутом  выше.  Рассматриваемая  концепция  реализуема  в  поле  открытых  данных,  а  при  связывании  их  средствами  URI  образуется  система,  называемая  в  настоящее  время  как  «связанные  открытые  данные»  (LOD  —  Linked  Open  Data). 

Первоначальный  импульс  общедоступности  данных  в  сети  Интернет  был  дан  в  начале  2000  годов  общественностью,  боровшейся  за  доступ  к  правительственным  и  другим  государственным,  а  также  к  юридическим  документам,  важных  для  жизни  множества  людей.  В  США  это  привело  к  созданию  в  2009  году  «Меморандума  о  прозрачном  и  открытом  правительстве».  К  настоящему  времени  уже  созданы  методические  основы  и  программно-системные  комплексы,  позволяющие  реализовать  эти  идеи.  В  научно-технической  информации  идеи  и  методы  LOD  также  обещают  существенное  продвижение  в  качестве  обеспечения  данными  ученых.  Это  относится  как  к  работе  с  самими  БД,  так  и  возможности  их  интеграции  в  различных  рамках  —  институтах,  отрасли,  в  целом  по  стране  и  на  международном  уровне.  В  научной  среде  получили  распространение  БД  двух  типов  —  библиографические  и  БД,  содержащие  численные  и  другие  данные  о  научных  фактах  (фактографические). 

Возникло  отдельное  направление  работ,  ориентированных  на  применение  стандартов  Semantic  Web  к  миру  библиотек  и  библиографических  сервисов  [6,  8].  Большие  хранилища  связанных  данных  могли  бы  обеспечить  истинную  интеграцию  библиотечных  ресурсов,  включая  все  функции  отбора,  каталогизации,  авторского  контроля,  разработки  таксономий  и  поиска.  Если  все  библиографические  ресурсы  будут  представлены  в  RDF  формате,  при  поиске  можно  использовать  общий  контролируемый  словарь,  заметно  повышая  полноту  и  релевантность,  так  называемого,  федеративного  поиска,  то  есть  с  охватом  множества  БД.

Здесь  мы  рассмотрим  аспекты  применения  подхода  LOD  на  примере  библиографической  БД  ТЕРМАЛЬ  по  теплофизическим  свойствам  веществ,  которая  длительное  время  функционирует  в  ОИВТ  РАН  [2].  БД  ТЕРМАЛЬ  представляет  собой  фонд  записей  о  документах,  содержащих  сведения  об  экспериментальных  и  теоретических  исследованиях  теплофизических  свойствах  веществ  в  различных  состояниях,  которые  находят  применение  в  большинстве  отраслей  промышленности  и  науки.  Известно,  что  свойства  используемых  в  промышленных  установках  веществ  и  материалов  определяют  и  ограничивают  их  технические  возможности.  Как  и  в  других  библиографических  системах,  информационная  запись  в  БД  ТЕРМАЛЬ  состоит  из  полей  и  подполей,  содержание  которых  (авторы,  название  статьи,  название  журнала  и  др.)  указывается  их  тегами  (метками).  Помимо  традиционных  для  библиографических  систем  полей  в  ТЕРМАЛЬ  имеются  и  другие,  в  которых  отражена  ее  тематическая  специфика.  Это  поля,  соответствующие  наименованиям  веществ,  химическим  формулам,  названиям  более  общих  классов  веществ,  свойств,  типов  свойств,  фазовых  состояний  веществ,  параметров  состояния  и  т.  д.  Типовой  запрос  пользователя  БД  ТЕРМАЛЬ  состоит  в  указании  вещества  и  присущего  ему  свойства,  данные  о  которых  представлены  в  выдаваемых  по  запросу  публикациях.

Специфика  теплофизических  исследований  состоит  в  том,  что  изучается  часто  не  одно  вещество,  а  некоторая  их  группа,  составленная  по  существенному  признаку,  например,  щелочные  металлы,  гомологические  ряды  углеводородов  и  тому  подобные.  Причем  у  некоторых  веществ  могут  быть  исследованы  одни  свойства,  а  у  других  иные.  При  внесении  описания  такой  статьи  в  БД  в  соответствии  с  тегами  в  поля  веществ  и  свойств  попадают  их  полные  перечни,  и  связь  «вещество-свойство»,  очевидная  из  текста  статьи,  теряется.  Это  служит  причиной  возникновения  большого  информационного  шума  при  исполнении  типового  запроса,  который  иногда  затруднительно  отфильтровать  даже  опытному  исследователю  без  обращения  к  первоисточнику.

Использование  триплетов  при  поиске  в  подобной  базе  данных  в  виде  связей  «Вещество-Имеет-Свойство»  позволило  бы  исключить  подобный  источник  информационного  шума.

Кроме  того,  поскольку  в  рамках  одной  БД  снимается  вопрос  об  открытости  этих  данных,  появляется  возможность  реализовать  концепцию  связанных  данных  (LOD)  с  помощью  уже  имеющихся  программных  средств. 

В  таблице  представлена  в  качестве  примера  запись  в  виде  RDF  триплетов  простого  факта  «Вода  замерзает  при  0  градусов  С».  Она  имитирует  гипотетический  вариант  записи  после  интеграции  БД  ТЕРМАЛЬ  в  соответствующую  среду.  Здесь  в  первой  строке  указано  положение  исходного  документа,  его  номер  10435  в  БД.  Содержание  дальнейших  записей  очевидно.  В  последней  строке  показано,  как  запись  в  явной  форме  может  быть  заменена  обращениями  к  позициям  некоторой  конкретной  онтологии  в  области  термодинамики,  что  обеспечивает  правильное  понимание  и  использование  терминов.

Таблица  1.

Запись  RDF  триплетов

субъект

предикат

объект

thermal:  10435

содержит

H2O

H2O

свойство

температура  замерзания

Температура  замерзания

значение

0

Температура  замерзания

единица  измерения

градус  С

 

 

 

<http://td.org/freezing_point>

<http://td.org/unit>

<http://td.org/Celsius>

 

 

Накопление  опыта  внедрения  концепции  LOD  на  уровне  локальных  тематических  БД  с  разработкой  соответствующих  онтологий  и  других  семантических  методов  является  необходимым  шагом  на  пути  информационной  интеграции  более  высокого  уровня.

 

Список  литературы:

  1. Еркимбаев  А.О.,  Зицерман  В.Ю.,  Кобзев  Г.А.  и  др.  Интеграция  баз  данных  по  свойствам  вещества.  Подходы  и  технологии.  //  Научно-техническая  информация.  Сер.  2.  Информационные  процессы  и  системы.  Всесоюзный  институт  научной  и  технической  информации  РАН.  —  2012.  —  №  8.  —  С.  1—8.
  2. Трахтенгерц  М.С.  Свидетельство  о  государственной  регистрации  базы  данных  ТЕРМАЛЬ.  //  №  2009620063.  Зарегистрировано  в  Реестре  баз  данных  28  января  2009  г.
  3. Bauer  F.,  Kaltenböck  M.  Linked  Open  Data:  The  Essentials.  A  Quick  Start  Guide  for  Decision  Makers.  //  Published  by:  edition  mono/monochrom,  Vienna,  Austria,  2012.  ISBN:  978-3-902796-05-9,  [Электронный  ресурс]  —  Режим  доступа.  —  URL:  www.semantic-web.at/LOD-TheEssentials.pdf  (дата  обращения:  15.05.2013).
  4. Berners-Lee  T.  Design  Issues:  Linked  Data.  [Электронный  ресурс]  —  Режим  доступа.  —  URL:  http://www.w3.org/DesignIssues/LinkedData.html.  (дата  обращения:  15.05.2013).
  5. Berners-Lee  T.,  Hendler  J.,  Lassila  O.  The  Semantic  Web  //  Scientific  American.  —  2001.  —  Vol.  284.  —  №  5.  —  P.  35—43.
  6. Byrne  G.,  Goddard  L.  The  Strongest  Link:  Libraries  and  Linked  Data.  //  D-Lib  Magazine.  —  2010.  —  Vol.  16.  —  №  11/12.  doi:10.1045/november2010-byrne  .  [сайт].  [Электронный  ресурс]  —  Режим  доступа.  —  URL:  http://www.dlib.org/dlib/november10/byrne/11byrne.html  (дата  обращения:  15.05.2013). 
  7. Open  Data  —  An  Introduction  “Today  we  find  ourselves  in  the  midst  of  an  open  data  revolution”.  [Электронный  ресурс]  —  Режим  доступа.  —  URL:  http://okfn.org/opendata/  (дата  обращения:  15.05.2013).
  8. Xin  R.S.,  Hassanzadeh  O.,  Fritz  C.,  and  oth.  Publishing  bibliographic  data  on  the  Semantic  Web  using  BibBase.  —  Semantic  Web.  —  2013.  —  №  4.  —  P.  15—22.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.