Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: Научного журнала «Студенческий» № 39(125)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6

Библиографическое описание:
Федорова А.С. АНАЛИЗ ВОЗМОЖНОСТИ ПРИМЕНЕНИЯ ТЕХНОЛОГИЙ СИНТЕЗА МОЛЕКУЛ ДНК ДЛЯ ХРАНЕНИЯ ИНФОРМАЦИИ В МОЛЕКУЛАХ // Студенческий: электрон. научн. журн. 2020. № 39(125). URL: https://sibac.info/journal/student/125/193873 (дата обращения: 05.05.2024).

АНАЛИЗ ВОЗМОЖНОСТИ ПРИМЕНЕНИЯ ТЕХНОЛОГИЙ СИНТЕЗА МОЛЕКУЛ ДНК ДЛЯ ХРАНЕНИЯ ИНФОРМАЦИИ В МОЛЕКУЛАХ

Федорова Александра Сергеевна

студент, кафедра практической и прикладной информатики МИРЭА-Российский технологический университет (РТУ МИРЭА),

РФ, г. Москва

Свищёв Андрей Владимирович

научный руководитель,

ассистент кафедры практической и прикладной информатики, МИРЭА-Российский технологический университет (РТУ МИРЭА), Институт информационных технологий,

РФ, г. Москва

ANALYSIS OF THE POSSIBILITY OF USING TECHNOLOGIES FOR THE SYNTHESIS OF DNA MOLECULES FOR STORING INFORMATION IN MOLECULES

 

Aleksandra Fyodorova

Student, Department of practical and applied Informatics, MIREA-Russian technological University (RTU MIREA),

Moscow, Russia

Andrey Svishchev

Research supervisor, assistant of the Department of practical and applied Informatics Moscow, Russia MIREA-Russian technological university (RTU MIREA), Institute of information technology

Russia, Moscow

 

АННОТАЦИЯ

В современном мире одной из важнейших проблем является хранение больших данных. Существует множество способов записывания и считывания информации. В данной статье будет рассматриваться технология синтеза молекул ДНК для хранения информации в молекулах.

ABSTRACT

In the modern world, one of the most important problems is the storage of big data. There are many ways to write and read information. This article will consider the technology of synthesis of DNA molecules for storing information in molecules.

 

Ключевые слова: хранение информации, большие данные, ДНК.

Keywords: data storage, big data, DNA.

 

За последние десятилетия человечество сгенерировало в два раза больше информации, чем за всю предыдущую историю. В 2011 году этот показатель составлял 1.8 зеттабайт или 1.8 триллионов Гб. Для сравнения, это в 57 раз больше, чем частиц песка на нашей планете. И по прогнозам различных ученых, с каждым годом объем данных будет увеличиваться в геометрической прогрессии. Вследствие чего появляется проблема больших данных. Она заключается не в самой технологии Big Data, а в невозможности работать с настолько большими потоками информации. [1]

Сегодня большая часть данных в мире хранится на магнитных и оптических носителях. Несмотря на улучшения в технологии применения оптических дисков, для хранения зеттабайта данных все ещё требуется значительный объем физического пространства и огромное количество запоминающих устройств. Если мы хотим сохранить мировые данные, нам необходимо добиться значительных успехов в области хранения. Использование ДНК для архивирования данных является привлекательной технологией, поскольку она имеет высокую плотность (примерно до 1 экзабайта на кубический миллиметр) и долговечность (период полураспада молекулы ДНК более 500 лет). [2]

Несомненно, ДНК имеет значительное количество преимуществ по сравнению с другими носителями информации. Например, дезоксирибонуклеиновая кислота как минимум в 1000 раз плотнее, чем самый компактный твердотельный жесткий диск, и как минимум в 300 раз прочнее, чем самые стабильные магнитные ленты. Кроме того, четырехбуквенный нуклеотидный код ДНК предлагает подходящую среду кодирования, которую можно использовать, как двоичный цифровой код, используемый компьютерами и другими электронными устройствами для представления любой буквы, цифры или другого символа. Но несмотря на эти преимущества, ДНК еще не стала широко распространенным носителем информации, поскольку стоимость химического синтеза ДНК по-прежнему непомерно высока и составляет 3500 долларов за 1 мегабайт информации. Ученые со всего мира пытаются усовершенствовать технологию хранения данных в молекулах ДНК, используя разные подходы. [3]

В 2010 году в Китайском университете Гонконга шифровали и записывали данные в бактерии. Для хранения данных использовались основания ДНК. Аденозин, представляющий число «0», тимин, представляющий «1», цитозин, представляющий «2», и гуанин, представляющий «3», кодировали 256 символов с помощью системы счисления с основанием 4. Первым шагом ученые применяли сжатие. Deflate - известный как алгоритм сжатия данных без потерь, который использует комбинацию кодирования Хаффмана и алгоритма LZ77, выгоден в двух аспектах: во-первых, можно включить больше информации при сравнении с несжатым сообщением той же длины и, во-вторых, повторяющиеся области могут быть значительно сокращены. Это принципиально важно для инфраструктуры системы хранения ДНК, поскольку гомополимеры и повторяющиеся области в последовательностях ДНК разрушаются при синтезе, а с алгоритмами сжатия в этих случаях потери будут минимальные. На тот момент технологии ещё не были так развиты, поэтому большой объем информации было невозможно включить в один фрагмент дезоксирибонуклеиновой кислоты. Исследователи попробовали разбить информацию на блоки и записывать их отдельно, но в данном случае фрагментация информации с последующей вставкой в ​​ячейки уничтожала все данные, так как порядок этих фрагментов неизвестен. Чтобы преодолеть такое препятствие, была изобретена новая информационная система. Каждая последовательность, которая вставлялась в бактериальную клетку, состояла из трех секторов - заголовка, сообщений и контрольной суммы. Заголовок - это адрес конкретного фрагмента сообщения, который состоит из 8 оснований ДНК, каждая из которых представляет собой 2 основания. После этого информация не исчезала и стало возможным найти её по заголовку. Далее следовала расшифровка сообщения. Информация сначала считывалась, потом находили повторяющиеся последовательности, сообщения и контрольные суммы. На последнем этапе контрольная сумма играла важную роль. Было необходимо решить своего рода комбинаторную задачку: используя вышеупомянутую формулу, разные фрагменты сообщений объединяются в разных перестановках; результат вписывается в формулу контрольной суммы, сравнивается с результатом в последовательности и, если они совпадают, сообщение расшифровано, если нет, придется повторить попытку до достижения нужного результата. [4]

В 2012 году другая команда ученых из Гарварда начала свои разработки в сфере хранения больших данных в молекулах ДНК. Они решили использовать синтетические молекулы дезоксирибонуклеиновой кислоты. Это сделано для того, чтобы информация не терялась при мутации генов и других процессов в микроорганизме. Кроме того, исследователи кодировали не ASCII-сообщения, а бинарный код (и даже изображения в формате JPEG). Перед непосредственной записью, информация разбивалась на блоки по 96 бит. В общей сложности записали примерно 643 Кб данных. Сейчас команда не остановилась на достигнутых результатах и внедряет новые технологии в данной сфере. Чтобы расширить свой подход, ученые разрабатывают интегрированное устройство хранения информации о ДНК, в котором программируемый ферментативный синтез ДНК может быть реализован в высоко мультиплексной манере. В биологии и методах биохимии новая цепь дезоксирибонуклеиновой кислоты синтезируется путем копирования уже существующей цепи матрицы с помощью ферментов, известных как ДНК-полимеразы. Для синтеза ДНК используется матрично-независимую ДНК-полимеразу и контролируется ее активность. Можно следить, какую из четырех букв нуклеотидов добавлять на каждом этапе синтеза цепи ДНК в электронном виде. В масштабе это запоминающее устройство обеспечит высоко распараллеленный процесс синтеза, подходящий для хранения экспоненциально растущего количества цифровой информации в ДНК. [5]

Запись и считывание информации, то есть синтез и секвенирование ДНК, конечно, происходит гораздо медленнее, чем запись и считывание магнитных или оптических накопителей. Поэтому биологические молекулы больше приспособлены для долговременного хранения больших объёмов данных, а не для частого считывания.

Процесс записи информации в молекулы ДНК работает и в обратную сторону. Есть технологии, которые позволяют расшифровать геном человека по дезоксирибонуклеиновой кислоте. Далее расшифрованная информация переводится в двоичный код, находятся закономерности. После составляются математические алгоритмы, которые впоследствии интегрируются и записываются в программу. То есть, можно хранить ДНК любого живого организма на запоминающем устройстве.

 

Список литературы:

  1. Статья «BigData шагает по планете» [Электронный ресурс] URL: https://rg.ru/2013/05/14/infa-site.html (Дата обращения: 27.11.2020)
  2. Статья “Next-Generation Digital Information Storage in DNA” [Электронный ресурс] URL: https://science.sciencemag.org/content/337/6102/1628 (Дата обращения: 27.11.2020)
  3. Статья “DNA Data Storage” [Электронный ресурс] URL: https://wyss.harvard.edu/technology/dna-data-storage/ (Дата обращения: 27.11.2020)
  4. Статья “Bioencryption by recombination – Principle” [Электронный ресурс] URL: http://2010.igem.org/Team:Hong_Kong-CUHK/Project_principle (Дата обращения: 27.11.2020)
  5. Статья “DNA Data Storage” [Электронный ресурс] URL: https://wyss.harvard.edu/technology/dna-data-storage/ (Дата обращения: 27.11.2020)

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.