Статья опубликована в рамках: XXXVII Международной научно-практической конференции «Наука вчера, сегодня, завтра» (Россия, г. Новосибирск, 15 августа 2016 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции часть 1, Сборник статей конференции часть 2
дипломов
CИСТЕМА ГЕНЕРАЦИИ СЕРВИСОВ ДОСТУПА К ГЕНОМНЫМ БАЗАМ ДАННЫХ
GENOME DATABASE ACCESS SERVICES GENERATION SYSYTEM
Yuriy Vaskin
phD student, Institute of Computational Mathematics and Mathematical Geophysics SB RAS,
Russia, Novosibirsk
Igor Skopin
candidate of Phis-Math Sciences, senior researcher, Institute of Computational Mathematics and Mathematical Geophysics SB RAS,
Russia, Novosibirsk
АННОТАЦИЯ
Цель работы состоит в отработке методов и протоколов взаимодействия, которые могут быть применены к обработке большого количества экспериментальных данных и потенциально могут быть переиспользована в различных научных центрах не только биологической направленности.
В результате были разработаны метод и система генерации сервисов запросов на основе геномного языка к открытым и внутри лабораторным биоинформационным данным, с удобным и универсальным интерфейсом.
ABSTRACT
The goal of the work is the prove of methods and interaction protocols, that can be applied to big experimental data processing and potentially be used not only in the biological field.
In the result methods and genome language query services generation system that can be applied to public and laboratory bioinformatics data with a user-friendly and unified interface.
Ключевые слова: биоинформатика; программное обеспечение; обработка данных;
Keywords: bioinformatics; software; data processing.
Особенностью анализа биологической информации является то, что в большинстве исследований требуется сделать запросы по нескольким параметрам к коллекции сгенерированных данных. Система, которая позволила бы обрабатывать такие запросы посредством адекватных интерфейсных средств ввода параметров и инфраструктуры доступа к большим коллекциям, также позволила бы высвободить ресурсы биоинформатиков и предоставить биологам качественные данные.
Сервисы GMQL (Рисунок 1) – коллекция биоинформационных сервисов с простым механизмом запуска и получения результата. Сервисы работают на уровне геномных регионов, предоставляя операции быстрого пересечения, выборки, соединения и т. д. Каждый сервис основан на геномном языке GMQL – высокопроизводительном окружении для запуска геномных запросов. GMQL – язык для формулирования геномных запросов, которые исполняются на фреймворке Hadoop. Сервисы оборачивают выбранные запросы геномного языка и предоставляют простой способ запуска запросов с пользовательскими параметрами и файлами. Интегрированные сервисы работают с пользовательскими данными и публичными репозиториями данных (ENCODE. Epigenomics Roadmap и т. д.).
Рисунок 1. Изображение работы сервисов GMQL. (1) Форма ввода данных с двумя параметрами, авто-заполнением и активированной подсказкой о количестве образцов, которые будут выбраны с текущими входными параметрами. (2) Часть результата со скачиваемыми данными во множественных форматах и распределение результирующих участков по хромосомам. (3) Часть результата, открытого в браузере IGB с подсказкой, которая показывает мета-данные результирующих участков
GMQL (GenoMetric Query Language) [1] поднимает уровень абстракции данных по сравнению с текущими языками, которые используются в биоинформатике, так как он позволяет формулировать запросы мощными, но простыми операциями. Таким образом, язык позволяет получать новые знания по ряду направлений. Важным аспектом языка является то, что он оперирует
геномными расстояниями, которые измеряются парами оснований (нуклеотидов) между регионами геномов. При предположении, что геномные участки выровнены на референсный геном, такие геномные операции вычисляются, как простые арифметические операции между координатами. В долгосрочной перспективе, главной сложность при работе с данными NGS является масштабируемость до тысяч или даже миллионов экспериментов. Поэтому на структуру геномного языка оказал влияние язык Pig Latin, высокоуровневый декларативный язык, который может быть исполнен на Hadoop.
Геномный язык GMQL составляет вычислительное ядро сервисов, которые предоставляют возможность создания веб-сервисов с пользовательскими операциями на лету.
Все доступные сервисы перечислены на странице инструментов. Пользователь может открыть любой сервис и запустить его. Сервисы, которые создаются администратором, появляются в верхней части списка. Пользовательские сервисы появляются в нижней части списка (в подразделе). Каждый сервис отображает статистику запусков. Сервисы отсортированы по популярности (числу запусков). Также, если сервис предполагает загрузку пользовательских данных, то он помечается соответствующим бейджем.
Поиск по запросу происходит в полях имен, описаний и текстах самих запросов сервисов. В поисковую выдачу попадают сервисы, которые содержат слова или части слов запроса в указанных выше полях.
Для запуска сервиса достаточно указать несколько параметров и нажать кнопку «Запуск». По завершению задачи, доступен скачиваемый результат. Для ознакомительного запуска, для большинства сервисов доступны параметры по умолчанию. Параметры по умолчанию можно подставить для их отображения перед запуском или же запустить сервис сразу.
Если запрос сервиса содержит операции выборки из геномных коллекций, то становится доступна функция оценки числа выбираемых экспериментов. Будет посчитано количество экспериментов с заданными параметрами. Это может быть полезно для оценки времени исполнения или правильности параметров.
Каждый запуск сервиса создает соответствующую вычислительную задачу. Список задач доступен на странице профиля пользователя. Таким образом пользователи могут запустить в асинхронном режиме столько задач, сколько необходимо и всегда иметь доступ к ним. Каждый пользователь имеет доступ только к собственным задачам и данным.
Текстовые параметры, которые вводит пользователь должны обязательно соответствовать соответствующим значениям в базе данных (таким образом, GATA1, gata1, gata – три разных значения). Для того, чтобы снизить процент ошибок, каждое поле ввода работает через автозаполнение.
По мере накопления данных в научном центре, биологам требуется выполнять разнотипные запросы, зачастую с использованием данных из открытых биоинформационных баз, содержащих сотни тысяч образцов. Например, для получения всех ChIP-Seq экспериментов для данного транскрипционного фактора. Геномный язык GMQL позволяет реализовывать различные запросы к хранилищам биоинформационных данных, таких как ENCODE. Разработанный метод генерации сервисов на основе геномного языка позволил биологам осуществлять запросы к большим хранилищам данных и получать результат в удобном для них формате, а также оценивать качество результата благодаря динамически генерируемым графикам и таблицам.
Система, реализующая метод генерации сервисов для запросов к биологическим базам данных, позволила исключить затраты на реализацию и внедрение скриптов, выполняющих аналогичную задачу.
Система генерации сервисов позволяет решать следующие задачи:
• Осуществлять запросы к биоинформационным данным из открытых источников [2] и данным внутри лаборатории;
• Создавать многократно используемые сервисы доступа к данным;
• Искать пересечения между пользовательскими регионами и наработанными базами данных;
• Получать в графическом виде результаты разнотипных запросов к геномным базам, например, для поиска супер-энхансеров для определенной ткани.
Программная система успешно прошла тестовые испытания и эксплуатируется в геномном центре при Европейском Институте Исследования Онкологии в Милане для автоматической обработки от двух до трех NGS-экспериментов в неделю.
Демо-версия системы автоматизации доступна по адресу (https://cru.genomics.iit.it/home/resources.xhtml#smith), полная версия системы генерации запросов доступна по адресу (http://genomic.elet.polimi.it/gmql/).
Список литературы:
- Masseroli M. GenoMetric Query Language: a novel approach to large-scale genomic data management. Bioinforma. Oxf. Engl. 31, 2015, Р. 1881–1888.
- ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature 489, 2012, Р. 57–74.
дипломов
Оставить комментарий