Телефон: +7 (383)-202-16-86

Статья опубликована в рамках: III Международной научно-практической конференции «Физико-математические науки и информационные технологии: проблемы и тенденции развития» (Россия, г. Новосибирск, 11 июня 2012 г.)

Наука: Информационные технологии

Секция: Системный анализ, управление и обработка информации

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Еркимбаев А.О. МЕТОДЫ ИНТЕГРАЦИИ БАЗ ДАННЫХ ПО СВОЙСТВАМ ВЕЩЕСТВА // Физико-математические науки и информационные технологии: проблемы и тенденции развития: сб. ст. по матер. III междунар. науч.-практ. конф. № 3. – Новосибирск: СибАК, 2012.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов
Статья опубликована в рамках:
 
 
Выходные данные сборника:

 

МЕТОДЫ ИНТЕГРАЦИИ БАЗ ДАННЫХ ПО СВОЙСТВАМ ВЕЩЕСТВА

Еркимбаев Адильбек Омирбекович

канд. техн. наук, зав. ИВЦ, ОИВТ РАН, г. Москва

Е-mail: adilbek@ihed.ras.ru

Зицерман Владимир Юрьевич

канд.физ.-мат. наук, зав. Лаб., ОИВТ РАН, г. Москва

Е-mail: vz1941@mail.ru

Кобзев Георгий Анатольевич

д-р физ.-мат. наук, зав.отд., ОИВТ РАН, г. Москва

Е-mail: gkbz@mail.ru

 


В самом общем виде под интеграцией баз данных (БД) понимается их соединение путем единого представления, включая возможности извлечения информации по запросу пользователя. Интеграция означает поддержку данных из неоднородных источников, позволяя решить множество проблем: различия в моделях данных, структурную и семантическую неоднородность, различия в методах доступа и пр. При распространении методов интеграции на сферу науки наиболее удачным оказался выбор тематики свойства вещества в качестве предметной области. С одной стороны, создание фондов численных данных по свойствам веществ и материалов издавна является одним из ключевых результатов естественнонаучных исследований, что определяет спрос на соответствующие технологии. С другой стороны, по самому генезису эти данные наилучшим образом соответствуют типовым концепциям БД, что делает проблему их интеграции относительно прозрачной. Ключевым является принятое допущение о достаточном уровне интеграции. Например, простейшее решение – консолидация ресурсов на уровне интерфейса без логической или семантической связи, наиболее дешевый и доступный в реализации способ их интеграции. Близок к этому способу и другой – интеграция на уровне внешних ссылок, когда в БД вводятся дополнительные поля, хранящие гиперссылки на другие БД. Оба способа, облегчая работу в неоднородной среде, исключают построение структурированных запросов, или применение аналитических приложений. Для этих целей требуется более глубокий уровень интеграции, включающий согласование структуры и семантики БД, при общей информационной модели и словаре основных понятий.

В качестве интегрирующей модели данных уже давно используется стандарт XML. В отличие от HTML, он создан для описания, а не отображения данных, адекватно передавая их структуру и семантику. После преобразования неоднородных данных в формат XML-документа, последний становится доступным для различных типов программных средств. Во множестве дисциплин появились собственные версии XML со своими словарями, средствами поддержки в виде настраиваемых браузеров и программ, реализующих графические представления, вычислительные сервисы и проч [1]. Созданы десятки таких версий, из которых, по крайней мере, две (ThermoML и MatML) оказались достаточно успешны при распространении и обмене данными по свойствам в термодинамике и материаловедении. В определенной степени этот успех связан с тем, что ключевые данные в обеих областях имеют относительно простую структуру: объекту с характерным для него именем (или набором имен) приписывается некоторый набор свойств в виде констант или одномерных таблиц.

Несмотря на возможности XML как стандарта при обмене научными данными, эта технология далека от того уровня интеграции, который был «задуман» в концепции Semantic WEB [7]. Задача Semantic WEB – внедрить в интернет-страницы описания, которые понятны компьютерам, что в перспективе и обеспечит самый глубокий уровень семантической интеграции. Концепция базировалась на технологиях, которые позволяли раздельно представлять синтаксис и семантику документа. На момент публикации были созданы язык XML и система описания ресурсов (Resource Description Framework, RDF). Язык XML позволяет создавать свои собственные тэги, снабжающие документы произвольной структурой. Ее синтаксис выражается посредством RDF, который кодирует структуру с помощью множества триплетов, каждый из которых формализует утверждение о том, что нечто имеет определённое отношение с некоторым определённым значением. Подлинным ядром Semantic Web является онтология - система понятий предметной области, которая представлена как набор сущностей, соединенных различными отношениями. Именно онтология представляет знания в виде формальной структуры, доступной для компьютерной обработки. С помощью OWL (Web Ontology Language) эксперты предметной области могут создавать, модифицировать и соединять различные онтологии. При этом язык OWL строится на основании RDF, который сам по себе строится на синтаксисе XML. RDF и OWL дают возможность создавать классы, свойства и отдельные экземпляры. Таким образом, технология Semantic Web обеспечивает интеграцию ресурсов в виде онтологии предметной области, задача которой описать концепции и соотношения среди концепций.


Применительно к данным о свойствах вещества есть несколько удачных примеров использования онтологического моделирования. Они относятся к материаловедению, где многообразие типов данных и богатство словарей проявляются наиболее ярко. Среди таких примеров база знаний PLINIUS, оперирующая данными по свойствам керамик [9], онтологическое описание ползучести конструкционных материалов [5], система MatONT [8], спроектированная для поддержки исследований по новым материалам. Той же цели, но с охватом промышленных изделий, наряду с материалами, служит стандарт ISO 10303-235: Engineering properties for product design and verification, включающий единую информационную модель для определения семантики и синтаксиса представления и единый словарь для определения смысла данных.


В общем виде технология онтологического описания данных по свойствам сформулирована в работе [6]. Автор обращается к концепции Semantic Web, используя слоистую структуру со стандартизованными процедурами перехода от нижнего слоя к верхнему: XML в нижнем слое для определения схемы данных, RDF в среднем слое для определения метаданных, и OWL в верхнем слое для представления онтологий. В сравнении с MatML, подобная структура способна обеспечить более высокий уровень стандартизации, формализующей определение свойств, методов обработки и использования.


Онтология «свойства материалов» включает 7 онтологий (табл. 1), из которых базовые дают определения терминов, названий и словарей, представляющих концепции для каждой из областей. Пример таксономии классов для самих материалов и их свойств дают рис. 1, 2. Две другие онтологии («процесс» и «окружение») дают описания методов производства и измерения и характеристик среды.

 

Таблица 1.

Общий состав онтологии для описания материалов

Базовые онтологии

Информация по материалу

Вспомогательные онтологии

Вещество

Единицы измерения

Процесс

Физические константы

Свойство

 

Окружение

 


 



Рис. 1. Фрагмент базовой онтологии «вещество»


 



Рис. 2. Фрагмент базовой онтологии «свойство»


 


Сверх четырех базовых, в общую онтологию включена «информация по материалу», детализирующая сведения по конкретному объекту, и вспомогательные онтологии, определяющие общенаучные концепции.


Предложенная онтология по материалам прошла тестирование на типовой процедуре обмена данными – среди группы разнородных БД, содержащих информацию по теплофизическим свойствам. Процедура сводится к конверсии логической структуры каждой из БД в единую структуру, предусмотренную онтологией. Таким образом, каждая из реляционных БД по свойствам может экспортировать данные в едином формате, пригодном как для обмена, так и для долгосрочной архивации. Онтология по материалам предоставляет общие для всех ресурсов термины и нотации для манипуляции данными и знаниями. Еще один компонент онтологии – цифровая библиотека уравнений, записанных на MathML, языке математической разметки. Все компоненты онтологии используют общий формат данных (XML) и могут быть размещены в сети интернет.


Анализ проблем c интеграцией БД выявляет интересное противоречие – богатые возможности технологий при достаточно редком их использовании в практической работе с данными по свойствам. Похожая ситуация рассматривалась ранее авторами [2], где было показано, что новые технологии слабо востребованы при работе с данными по свойствам, а большинство центров по подготовке данных ориентируются на традиционные методы.


Ведущую роль, по-видимому, играют традиции, сложившиеся в естественнонаучных коллективах и отсутствие столь же значительных инвестиций, как в мире бизнеса, где инициируется создание новых технологий. В полной мере это относится и к проблеме интеграции ИР – подавляющее число возможных приложений относится к сфере бизнеса и производства. Даже, упомянутый выше стандарт ISO 10303-235 ориентирован преимущественно на промышленные изделия, включая данные по свойствам лишь как фрагмент общей информационной модели. Тем не менее, объективные потребности в интеграции ресурсов по свойствам вещества настолько существенны, что миграция соответствующих технологий в естественнонаучную среду становится вопросом времени. Ярким примером проникновения идеологии и методов интеграции в практическую работу исследователей является онтология «количественная спектроскопия», применяемая при обработке информации из разнородных БД, где представлены результаты решений прямой и обратной задачи для молекул, представляющих особый интерес в физике атмосферы (H2O, CO2, NH3, H2S) [3, 4]. Существенно, что весь требуемый арсенал технологий и инструментов интеграции БД создан и вполне доступен разработчикам. Рассматривая тематику «свойства вещества» как соответствующий полигон, можно уже в ближайшее время обеспечить выработку соответствующих стандартов интеграции множества БД, разработанных и действующих в отечественной науке.


 


Список литературы:

1.Еркимбаев А.О., Зицерман В.Ю., Кобзев Г.А. Версии языка XML в задачах хранения и распространения научных данных// Сборник трудов Всероссийской научной школы-семинара молодых ученых, аспирантов и студентов, "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки". Таганрог: Изд-во ТТИ ЮФУ. – 2011. - С. 52—58

2.Зицерман В.Ю., Кобзев Г.А., Фокин Л.Р. Возможности и перспективы информационных технологий в подготовке и распространении справочных данных: свойства веществ и материалов.// НТИ. Сер. 1. – 2004. - № 2. - С. 7—14.

3.Привезенцев А.И., Фазлиев А.З. Базы знаний для описания информационных ресурсов в молекулярной спектроскопии. 1. Основные понятия // Электронные библиотеки. – 2011. - № 1.

4.Привезенцев А.И., Фазлиев А.З. Базы знаний для описания информационных ресурсов в молекулярной спектроскопии. 2. Модель данных в количественной спектроскопии // Электронные библиотеки. – 2011. - № 2.


5.Ashino T., Fujita M.. Definition of Web Ontology for Design-Oriented Material Selection// Data Science Journal. 2006. - V. 5. - P. 52—63.


6.Ashino T. Materials ontology: an infrastructure for exchange materials information and knowledge // Data Science Journal. 2010.- V. 9. P. 54—61.


7.Berners-Lee T., Hendler J., & Lassila O. The Semantic Web// Scientific American. 2001.- V. 284(5).- P. 35—43.


8.Cheung K., Drennan J., & Hunter J. Towards an Ontology for Data-driven Discovery of New Materials // AAAI Workshop on Semantic Scientific Knowledge Integration, 2008, Stanford University. – P. 26-28.


9.Van der Vet P. E., Speel P-H., & Mars N.J.I. Ontologies for very large knowledge bases in materials science: A case study // The Second International Conference on Building and Sharing Very Large-Scale Knowledge Bases, 1995, University of Twente, 73—83.

Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий

Уважаемые коллеги, издательство СибАК с 30 марта по 5 апреля работает в обычном режиме