Поздравляем с Днем студента!
   
Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: LXIV Международной научно-практической конференции «Технические науки - от теории к практике» (Россия, г. Новосибирск, 28 ноября 2016 г.)

Наука: Технические науки

Секция: Информатика, вычислительная техника и управление

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Киселёв Б.Г., Юрьев М.А., Жадан Е.М. [и др.] СРАВНИТЕЛЬНЫЙ АНАЛИЗ СОВРЕМЕННЫХ ХИМИЧЕСКИХ ОНТОЛОГИЙ // Технические науки - от теории к практике: сб. ст. по матер. LXIV междунар. науч.-практ. конф. № 11(59). – Новосибирск: СибАК, 2016. – С. 14-21.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

СРАВНИТЕЛЬНЫЙ АНАЛИЗ СОВРЕМЕННЫХ ХИМИЧЕСКИХ ОНТОЛОГИЙ

Киселёв Борис Григорьевич

бакалавр национального исследовательского ядерного университета «МИФИ», студент магистратуры национального исследовательского ядерного университета «МИФИ»,

РФ, гМосква

Юрьев Михаил Александрович

бакалавр национального исследовательского ядерного университета «МИФИ», студент магистратуры национального исследовательского ядерного университета «МИФИ»,

РФ, гМосква

Жадан Евгения Михайловна

бакалавр национального исследовательского ядерного университета «МИФИ», студент магистратуры национального исследовательского ядерного университета «МИФИ»,

РФ, гМосква

Харьков Виктор Родионович

бакалавр национального исследовательского ядерного университета «МИФИ», студент магистратуры национального исследовательского ядерного университета «МИФИ»,

РФ, гМосква

Медведева Елена Олеговна

бакалавр национального исследовательского ядерного университета «МИФИ», студент магистратуры национального исследовательского ядерного университета «МИФИ»,

РФ, гМосква

COMPARATIVE REVIEW OF THE CURRENT CHEMICAL ONTOLOGIES

Boris Kiselev

associate Professor, National Research Nuclear University MEPhI,

Russia, Moscow

Mikhail Yuriev

postgraduate of National Research Nuclear University MEPhI,

Russia, Moscow

Evgeniya Zhadan

bachelor of National Research Nuclear University MEPhI, undergraduate

of National Research Nuclear University MEPhI,

Russia, Moscow

Victor Kharkov

bachelor of National Research Nuclear University MEPhI, undergraduate

of National Research Nuclear University MEPhI,

Russia, Moscow

Elena Medvedeva

bachelor of National Research Nuclear University MEPhI, undergraduate

of National Research Nuclear University MEPhI,

Russia, Moscow

 

АННОТАЦИЯ

В настоящее время объемы информации непрерывно увеличиваются, в результате чего, возникает необходимость решения задач быстрого поиска и классификации информации. Таким образом, развиваются новые технологии, которые обеспечивают автоматическое извлечение знаний из текстов. Одной из систем, способных решать заявленные проблемы, является онтология. В статье приводится сравнительный анализ современных химических онтологий, которые обеспечивают высокоскоростное, высококачественное аннотирование и поиск в больших объемах данных.

ABSTRACT

Currently, the volume of information is continuously increased, as a result, it becomes necessary to solve problems of quick search and classification information. Thus, new technologies are being developed that provide automatic extraction of knowledge from texts. One of the systems that are able to solve the stated problems, is an ontology. In article a comparative analysis of modern chemical ontologies, which provide high-speed, high-quality annotation and search in large volumes of data is provided.

 

Ключевые слова: онтология; RDF; OWL; ChEBI; OntoChem; база данных.

Keywords: ontology; RDF; OWL; ChEBI; OntoChem; database.

 

В современном постиндустриальном обществе непрерывно увеличивается поток информации во всех наукоёмких областях человеческой деятельности, таких как биология, химия, география и другие, что сопровождается возрастанием роли компьютерных технологий. Всё большего внимания требует решение задач быстрого поиска и классификации информации. Таким образом, растет интерес к системам, которые могут автоматически извлекать знания из текстов. В результате, развиваются новые технологии, способные решать заявленные проблемы. Одной из таких систем является онтология. Использование онтологий требует стандартизированного подхода для их представления. Для этого используются языки, которые могут применяться повсеместно во всех системах, такие как RDF, OWL и другие. Также есть большое количество разнообразных программных комплексов на основе онтологий, предназначенные для создания, пополнения и редактирования, каждый из которых работает с определенным форматом данных и обладает своими особенностями. Рассмотрим особенности таких программных комплексов на примере онтологий проектов ChEBI и OntoChem.

Одной из современных химических онтологий является ChEBI (химические объекты биологического влияния) – это легкодоступный словарь молекулярных структур, ориентированный на небольшие химические объекты. ChEBI предоставляет стандартные описания молекулярных структур, которые позволяют другим базам данных на EMBL-EBI и во всем мире комментировать их записи последовательным способом. ChEBI акцентирует внимание на высококачественной рукописной аннотации и неизбыточности онтологии химии, а не на полном охвате огромного химического пространства. В дополнение к молекулярным структурам, ChEBI содержит группы (части молекулярных структур) и классы сущностей [1]. Главной особенностью ChEBI является то, что она включает в себя химическую онтологию, что позволяет устанавливать связь между молекулярными веществами или классами сущностей и их родителями и/или детьми, для их представления в структурированном виде.

ChEBI онтология состоит из трех суб-онтологий, а именно:

  • Молекулярная структура, в которой образования молекул или их частей классифицируются в зависимости от их структуры. Классы молекулярной структуры идентифицируются по молекулярной суб-структуре онтологии [2]. Они могут представлять из себя обобщение структурных особенностей всех членов, которые разделяют класс или саму структуру.

Это используется для нахождения интересующих частей молекулярных образований, таких как группы.

В онтологии ChEBI используются два универсальных вида отношений, а именно:

  • Сущность А является экземпляром сущности В.
  • Связь между частью и целым.

Кроме того, онтология ChEBI содержит несколько специальных химических отношений, которые используются для передачи дополнительной семантической информации о сущности в онтологии [2]:

  • Таутомерия: циклическая связь используется, чтобы показать отношения между двумя таутомерами.
  • Энантиомеры: циклическая связь используется в тех случаях, когда две структуры являются зеркальным отображением, а не суперпозицией друг друга.
  • Функциональные группы: отношения между двумя молекулярными структурами или классами, один из которых имеет одну или несколько характерных групп, а другой может быть получен из первого путем функциональных изменений.
  • Отношения родителя гидрида: обозначает отношения между субъектом и его родителем гидридом.
  • Отношение роли: указывает на связь между молекулярной сущностью и особенностью поведения, которую субъект может проявлять.

Идентификатор таблицы Compound является основным для каждого обозначения сущности [2]. После добавления нового объекта, он добавляется к базе ChEBI. Присоединение происходит после его обработки, что может занять некоторое время. Если данный объект в базе уже есть, то он объединяется с существующим. За счет этого ChEBI постоянно динамично развивается и улучшается.

Важными плюсами данной базы ChEBI доступность всей информации в следующих форматах [1]:

  1. Файл формата СУБД или БД. Эти данные могут быть легко импортированы в приложение электронных таблиц, например Microsoft Excel, а оттуда они могут быть импортированы в реляционные базы данных.
  2. Бинарный формат Oracle. Его легко можно импортировать непосредственно в базу данных Oracle.
  3. Данные могут быть представлены как универсальная вставка инструкций SQL, которые могут быть выполнены на любых базах данных SQL.
  4. Данные представлены в формате ОВО для импорта в OBO редактор.
  5. ChEBI предоставляет своим химические структуры и дополнительные данные в формат sdf. Такие данные приводятся в двух вариантах:
  • Chebi_lite.sdf-файл содержит только химические структуры: идентификатор и имя ChEBI.
  • Chebi_complete.sdf-файл содержит все химические структуры и связанную с ними информацию.

Главным преимуществом является доступ к ChEBI через веб-сервисы. Веб-службы ChEBI обеспечивают программный доступ к набору данных ChEBI [2]. Это позволяет пользователям создавать свои собственные приложения, через запрос к ChEBI внутри их применения, без необходимости скачивания каждый раз, после обновления. Веб-сервисы реализованы как серверные приложения, к которым многие клиенты могут подключаться через интернет.

Ещё одним примером онтологии, предметной областью которой является химия и другие смежные области, является OntoChem. Онтология может быть использована для решения различных задач, таких как автоматическое индексирование, извлечение неявной, неизвестной и полезной информации, текстовый и интеллектуальный анализ, поиск внутренних и внешних массивов данных и поддержка развития новых продуктов с помощью транзитивного обнаружения знаний. Ключевая технология OCMiner используется в OntoChem для обработки неструктурированной информации на основе фреймворка Apache UIMA [3].

Данная технология использует онтологии для различных задач информационного поиска:

  1. Классификация сущностей или определение конкретных видов отношений с помощью специально разработанного синтаксиса языка регулярных выражений.
  2. Онтологические интеллектуальные поисковые системы позволяют выполнять поиск понятий.
  3. Нахождение конкретных зависимостей между объектами.
  4. Сходство и классификация документов на основе используемых понятий онтологии.

Интеллектуальный анализ данных на основе пользовательских запросов осуществляется благодаря встроенным модулям, содержащих инструменты, которые дают желаемый результат. Настраиваемые модули выбирают из включающего в себя широкого спектра разных «читателей», инструментов анализа или «потребителей», которые могут выполнять задачи параллельно на многопроцессорных машинах и даже в том случае, когда распределены на нескольких компьютерах.

«Читатели» считывают данные из различных источников, стандартизируя входные данные для дальнейшего анализа [3]:

  • Обработка документов формата Office и многих других форматов фалов.
  • Расширенная поддержка XML и PDF документов.
  • «Читатели» баз данных предоставляют прямой доступ к реляционным базам данных, онтологиям и системам управления документами (DMS).

Механизмы анализа работают над нормированной информацией и добавляют дополнительные данные, например:

  • Распознавание структуры документа, такой как заголовки, абзацы, предложения и другие.
  • Распознавание именованных сущностей (NE) на основе использования словаря – это высокоэффективная технология поиска по словарю с поддержкой очень больших объемов (> 100 Милл. записей). Применяется определенная лексика, причем способы обработки зависят от словаря [3]:
  • Легко приспосабливается к распознаванию различных вариантов написания.
  • Анализ омонимов обеспечивается благодаря контекстно-зависимому онтологическому сходству.

Потребители могут работать независимо и параллельно, используя данные предоставленные механизмами анализа. Они обеспечивают конечный результат поиска и отображение приложений.

  • Тегирование текста и аннотации к тексту, например, для аннотирования научных публикаций для типографии.
  • Поисковые системы на веб-основе.
  • Тематический поиск и классификация документов на основе понятий онтологии для получения результатов на основе мгновенных знаний (предварительно рассчитанные взаимосвязи) из очень объемных наборов данных.
  • Сходство документов на основе понятий, позволяет находить более релевантные, связанные документы, чем на основе слов.

Для поддержания развития химической онтологии был разработан новый редактор онтологии по химии SODIAC. Используя формат OBO, он реализует стандартные функции редактора онтологий вместе с химическими функциями, такими как добавление и редактировании классов химических соединений на основе структуры, а также выполнение логической химии на основе проверки онтологии [3]:

  1. Чтение или запись SMILE или MOL файлов для аннотирования классов соединений для конкретных соединений.
  2. Соединение с базами данных для присваивания классов соединений к конкретным соединениям.
  3. Добавление и редактирование онтологических понятий, пользовательских тегов, синонимов, ссылок на внешние базы данных и дополнительные данные для каждого понятия класса соединений.
  4. Добавление, удаление и редактирование соединений и структур классов соединений с помощью редактора химии.

Преимуществами OntoChem являются высокоскоростное, высококачественное аннотирование и поиск в больших объемах данных, осуществляемые с помощью технологии OCMiner. Также данная технология обладает большой точностью и возвращающей способностью. В отличие от общестатистических решений других систем, OntoChem использует аналитическое представление синтаксических структур для извлечения конкретных триплетов или N-кортежей знаний из документов. Модульный подход обеспечивает масштабируемость системы, что позволяет онтологии содержать до миллиарда терминов для аннотирования.

Таким образом, OntoChem обеспечивает дополнительную ценность для пользователей с помощью [3]:

  • разработки и применения когнитивных вычислительных решений;
  • создание индексированных интернет-данных и семантических поисковых решений;
  • использование метода анализа больших данных для технологии управляемого бизнеса.

Также он предоставляет полезные инструменты для обнаружения знаний:

  • создание базовых знаний онтологий;
  • с высокой пропускной способностью семантической обработки документов и аннотирования;
  • добыча знаний путем извлечения отношений.

Рассмотрим критерии сравнения данных онтологий.

Таблица 1.

Критерии сравнения онтологий ChEBI и OntoChem

Критерии сравнения

ChEBI

OntoChem

Поддерживаемые форматы

SMILE или MOL файлы, форматы OBO и Office, например Excel, sdf. Обеспечивают прямой доступ к реляционным базам данных, онтологиям и системам управления документами

Бинарный формат Oracle

XML и PDF документы

Поиск данных

Поиск основан на понятии онтологии, а не на отдельном слове

Медленнее 100000 операций/сек

Быстрее 100000 операций/сек

Доступ к онтологиям

Осуществляется с помощью веб-сервисов, реализованных в виде серверных приложений и обеспечивающих программный доступ к набору данных онтологий

 

 

Таким образом, обе онтологии поддерживают разнообразное количество форматов предоставления информации, однако в OntoChem есть поддержка XML и PDF документов, которой нет в ChEBI, и наоборот, в ChEBI есть поддержка бинарного формата Oracle, которой нет в OntoChem. Также, обе онтологии обеспечивают высококачественный поиск на основе понятий онтологии, а не на отдельном слове, хотя OntoChem, благодаря технологии OCMiner, обеспечивает поиск быстрее чем 100000 операций/сек [3]. Следует отметить, что доступ к онтологиям проектов ChEBI и OntoChem осуществляется одинаково с помощью веб-сервисов, реализованных в виде серверных приложений.

 

Список литературы:

  1. Chemical Entities of Biological Interest: an update [Электронный ресурс]//Paula de Matos, Rafael Alca´ ntara, Adriano Dekker. 2012. URL: http://paperity.org/p/34472735/chemical-entities-of-biological-interest-an-update (Дата обращения 18.11.2016).
  2. ChEBI – [Электронный ресурс]. 2016. URL: http://www.ebi.ac.uk/chebi/ (Дата обращения 12.11.2016).
  3. OntoChem. It solution – [Электронный ресурс]. 2016. URL: http://www.ontochem.com/ (Дата обращения 10.11.2016).
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий