Поздравляем с Днем студента!
   
Телефон: 8-800-350-22-65
Напишите нам:
WhatsApp:
Telegram:
MAX:
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: XCIV Международной научно-практической конференции «Вопросы технических и физико-математических наук в свете современных исследований» (Россия, г. Новосибирск, 22 декабря 2025 г.)

Наука: Математика

Секция: Теория вероятностей и математическая статистика

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Лащенко Н.А., Доманькова В.В., Федосюк Л.П. СТАТИСТИЧЕСКИЕ МЕТОДЫ В БИОИНФОРМАТИКЕ И ГЕНЕТИКЕ // Вопросы технических и физико-математических наук в свете современных исследований: сб. ст. по матер. XCIV междунар. науч.-практ. конф. № 12(85). – Новосибирск: СибАК, 2025. – С. 29-34.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

СТАТИСТИЧЕСКИЕ МЕТОДЫ В БИОИНФОРМАТИКЕ И ГЕНЕТИКЕ

Лащенко Надежда Андреевна

студент, кафедра менеджмента, Белорусский государственный университет информатики и радиоэлектроники,

РБ, г. Минск

Доманькова Виталия Вадимовна

студент, кафедра менеджмента, Белорусский государственный университет информатики и радиоэлектроники,

РБ, г. Минск

Федосюк Людмила Петровна

старший преподаватель, Белорусский государственный университет информатики и радиоэлектроники,

РБ, г. Минск

STATISTICAL METHODS IN BIOINFORMATICS AND GENETICS

 

Lashchanka Nadzeya Andreevna

Student, Department of Management, Belarusian State University of Informatics and Radioelectronics,

Republic of Belarus, Minsk

Domankova Vitalia Vadimovna

Student, Department of Management, Belarusian State University of Informatics and Radioelectronics,

Republic of Belarus, Minsk

Lyudmila Petrovna Fedosyuk

Senior Lecturer, Belarusian State University of Informatics and Radioelectronics,

Republic of Belarus, Minsk

 

АННОТАЦИЯ

В данной статье рассматриваются основные статистические подходы, применяемые в области геномики, транскриптомики и популяционной генетики. Особое внимание уделено методам выявления ассоциированных с заболеваниями Single Nucleotide Polymorphisms (SNP), анализу экспрессии генов, статистическому обучению для классификации типов опухолей, а также филогенетическому анализу. Обсуждаются современные вызовы, такие как проблема множественного тестирования, интеграция разнородных данных и необходимость разработки репродуцируемых методов.

ABSTRACT

In this article, the main statistical approaches applied in the fields of genomics, transcriptomics, and population genetics are examined. Particular attention is given to methods for identifying disease-associated Single Nucleotide Polymorphisms (SNPs), gene expression analysis, statistical learning for tumor type classification, as well as phylogenetic analysis. Contemporary challenges are discussed, such as the issue of multiple testing, the integration of heterogeneous data, and the need for developing reproducible methods.

 

Ключевые слова: биоинформатика, статистическая генетика, GWAS, RNA-Seq, машинное обучение, филогенетика, множественное тестирование, p-value, биологическая значимость.

Keywords: Bioinformatics, statistical genetics, genome-wide association studies (GWAS), RNA sequencing (RNA-Seq), machine learning, phylogenetics, multiple testing, p-value, and biological significance.

 

Современная биология и медицина переживают революцию, связанную с бурным развитием технологий генетического чтения и вычислительных методов. Геномика, транскриптомика и другие направления биоинформатики генерируют колоссальные объёмы данных, которые невозможно изучать без применения строгих статистических подходов. Именно статистика позволяет превратить массивы символов и числовых значений в сформулированные биологические выводы, выявить закономерности и построить модели, объясняющие сложные процессы наследственности, экспрессии генов и эволюции. Статистические методы становятся ключевым инструментом в биоинформатике и генетике: от поиска ассоциаций между генами и заболеваниями до анализа активности генов и построения филогенетических деревьев. Рассмотрение этих подходов демонстрирует, что статистика не только служит фундаментом для обработки данных, но и открывает путь к новым открытиям в медицине, фармакологии и эволюционной биологии.

Появление технологий высокопроизводительного секвенирования (NGS) привело к генерации огромных массивов данных. Однако сами по себе эти данные представляют лишь набор символов (A, T, G, C) или интенсивностей сигналов. Преобразование этой информации в биологическое знание невозможно без применения сложных статистических моделей и вычислительных алгоритмов. Статистика служит мостом между сырыми данными и биологическими гипотезами, позволяя оценивать значимость находок, контролировать ошибки и строить прогностические модели. От точности анализа напрямую зависит достоверность открытий в области поиска генов болезней, разработки новых лекарств и персонализированной медицины.

Одним из наиболее ярких примеров применения статистики в генетике является полногеномный поиск ассоциаций (GWAS). Этот подход помогает найти мелкие изменения в ДНК, так называемые однонуклеотидные полиморфизмы, или SNP, которые могут быть связаны с болезнями вроде диабета или с такими признаками, как рост. Основной статистической моделью, используемой в GWAS, выступает обобщенная линейная модель. Она вычисляет, насколько вероятно развитие болезни при наличии определенного варианта гена через использование логистической регрессии. Для количественных признаков, например, уровня артериального давления или роста, используется линейная регрессия. Главным результатом такого анализа является p-value. Это число показывает вероятность, что найденная связь между геном и болезнью является случайной. Однако фундаментальной проблемой GWAS является проблема множественного тестирования. В типичном эксперименте тестируются миллионы SNP одновременно, что при использовании стандартного порога значимости (p < 0,05) привело бы к десяткам тысяч ложноположительных результатов. Для решения этой проблемы применяются поправки, такие как поправка Бонферрони, которая является чрезвычайно консервативной, или более гибкий метод контроля False Discovery Rate, который оценивает долю ложных открытий среди всех значимых результатов. Другим важным показателем кроме p-value является отношение шансов, который количественно оценивает силу связи между маркером и заболеванием. Несмотря на свою мощь, GWAS сталкивается с вызовом «недостающей наследуемости», когда совокупный вклад идентифицированных SNP не объясняет всех генетических компонентов заболевания, что указывает на необходимость учета более сложных взаимодействий.

Следующей областью, где статистические методы играют важнейшую роль, является анализ активности генов с помощью технологии RNA-Seq. Этот метод позволяет измерить, насколько активны тысячи генов одновременно. Главная задача – найти гены, активность которых достоверно меняется в разных условиях, например, в здоровых клетках по сравнению с раковыми. Данные RNA-Seq представляют собой подсчеты прочитанных фрагментов, сопоставленных с каждым геном, которые по своей природе являются счетными данными и часто демонстрируют дисперсию, зависящую от среднего значения. Для их анализа были разработаны специализированные статистические методы, основанные на отрицательном биномиальном распределении, которое лучше всего описывает избыточную дисперсию таких данных. Наиболее популярные программные пакеты, такие как DESeq2 и edgeR, используют именно этот подход. Их работа состоит из нескольких ключевых шагов: сначала проводится нормализация данных для устранения технических особенностей, таких как разная глубина секвенирования библиотек, затем оценивается дисперсия для каждого гена, и, наконец, применяются обобщенные линейные модели для тестирования гипотез о дифференциальной экспрессии. Результатом также является p-value, скорректированный на множественное тестирование, и величина изменения экспрессии. Это позволяет не только определить статистическую значимость, но и оценить биологическую значимость выявленных изменений.

Машинное обучение, как раздел статистики и информатики, нашло широчайшее применение в биоинформатике для решения задач по классификации и прогнозированию. В области геномики и генетики эти методы используются для предсказания функции генов, систематизации  типов рака на основе геномных или транскриптомных профилей, предсказания вторичной и третичной структуры белков, а также для идентификации некодирующих регионов ДНК. Например, метод опорных векторов успешно применяется для классификации образцов опухолей по данным экспрессии генов, что имеет огромное значение для онкодиагностики и выбора тактики лечения. В последние годы глубокое обучение демонстрирует прорывные результаты в таких областях, как предсказание последствий однонуклеотидных замен, определение специфичности ДНК-белковых взаимодействий и даже в прямом предсказании структуры белка. Эти методы способны выявлять сложные, нелинейные закономерности в данных, которые часто недоступны для традиционных статистических подходов. Исследование в Nature Communications (2025) наглядно демонстрирует актуальность методов, объединяющих «омные» данные и машинное обучение. Используя алгоритмы случайного леса и градиентного бустинга, учёные создали модель для точной классификации подтипов рака и выявления новых прогностических маркеров.

Популяционная генетика изучает, как генетические варианты – аллели – распределяются и меняются в группах живых организмов под влиянием эволюции. Статистические методы позволяют делать выводы об эволюционной истории видов. Для оценки генетического разнообразия внутри одной популяции, используют специальные показатели. Например, ожидаемая гетерозиготность показывает, насколько разнообразны гены у особей в этой группе. Для выявления следов естественного отбора применяются тесты, основанные на сравнении полиморфизма внутри видов и дивергенции между видами, такие как тест Тадзимы или HKA-тест. Значимое отклонение этих статистик от нуля позволяет выдвигать гипотезы о действии отбора на конкретный геномный локус. В филогенетике, занимающейся реконструкцией эволюционных взаимоотношений между видами или генами, также важна статистика. Методы максимального правдоподобия и байесовского вывода позволяют строить филогенетические деревья, оценивая вероятность наблюдаемых данных о последовательностях при заданной топологии дерева и модели эволюции. Эти методы предоставляют не только наиболее вероятное дерево, но и меру уверенности в его ветвях, что делает выводы более обоснованными и надежными.

Статистические методы являются не просто вспомогательным инструментом, а фундаментальной основой современной биоинформатики и генетики. Они обеспечивают извлечение знаний из многомерных биологических данных. От простых линейных моделей в GWAS до сложных архитектур глубокого обучения – статистика позволяет формулировать и проверять гипотезы, контролировать ошибки и строить прогностические модели, открывающие дорогу для новых биологических открытий. Будущее развитие этой области будет связано с преодолением текущих вызовов, таких как интеграция разнородных данных, повышение репродуцируемости и интерпретируемости моделей, что потребует еще более тесного взаимодействия между статистиками, программистами и биологами.

 

Список литературы:

  1. Степанов В.А. и др. Методы статистического анализа в популяционной и эволюционной генетике человека. – Томск: Печ. мануфактура, 2014. – 320 с.
  2. Кожевников С.П. Алгоритмы биологической статистики: учебно-методическое пособие. – Ижевск: Удмуртский университет, 2018. – 120 с.
  3. Неминущая Л.А., Скотникова Т.А., Токарик Э.Ф. и др. Применение статистических методов в биотехнологических исследованиях. – Вестник Казанского технологического университета, 2015.
  4. PLOS One. An evaluation of RNA-seq differential analysis methods. – PLOS One, 2022.
  5. Nature Communications. Genome-wide association study reveals novel loci for complex behavioral trait. – Nature Communications, 2025.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий