Статья опубликована в рамках: XLIII Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 28 июня 2016 г.)

Наука: Технические науки

Секция: Моделирование

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Редчук Б.Ю., Лящук А.Н. Использование методов машинного обучения для поиска факторов риска мультифакторных патологий // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. XLIII междунар. студ. науч.-практ. конф. № 6(42). URL: https://sibac.info/archive/technic/6(42).pdf (дата обращения: 09.08.2025)

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

Диплом лауреата
отправлен участнику

Использование методов машинного обучения для поиска факторов риска мультифакторных патологий

Редчук Богдан Юрьевич

студент 6 курса, Физико-Технический Институт, НТУУ «КПИ», г. Киев

Лящук Андрей Николаевич

студент 6 курса, Физико-Технический Институт, НТУУ «КПИ», г. Киев

Строй Дмитрий Александрович

научный руководитель,

канд. мед. наук, мл. научный сотрудник, Институт физиологии им. Богомольца,

г. Киев

Вступление

Изучение механизмов фенотипической реализации аллельных вариантов различных генов при однонуклеотидных полиморфизмам (SNP) и определение определенных комбинаций полиморфизмов как факторов риска возникновения мультифакторных заболеваний (МФЗ) является одной из самых актуальных задач медицинской генетики [3]. Поиск в геноме аллельных вариантов генов, которые увеличивают вероятность развития заболеваний человека и установление их патофизиологического значение является сложной и кропотливой работой одновременно многих коллективов исследователей [4]. Одной из самых больших проблем в выявлении ассоциаций с МФЗ является одновременный анализ большого количества ДНК-маркеров, контролирующих определенные клеточные функции, и это является проблемой эффективной статистической обработки данных. Если набор SNP состоит из огромного количества генов, детерминирующих фенотип, то существует необходимость значительного увеличения размера выборки для оценки сочетаний генотипов и их генотипических эффектов. Были проведены расчеты, для анализа всего 100 полиморфизмов существует 1,27х возможных межгенных комбинаций.

Одной из самых больших проблем при анализе этих взаимодействий является коррекция статистической значимости (p-value) при проведении множественных сравнений групп по комбинациях маркеров или факторов внешней среды. Особенно остро эта проблема проявляется при проведении анализа результатов полногеномное исследований, для которых характерно включение нескольких тысяч пациентов, а количество SNP составляет 500 000 и более [2]. Полногеномное исследования является одним из основных инструментов изучения мультифакторной патологии, поскольку позволяют выявить до сих пор не известны молекулярные механизмы, которые создают "ландшафт" комплексного многофакторного заболевания. Существуют и оппозиционеры данного подхода изучения механизмов развития многофакторных заболеваний, которые утверждают, что этот поиск осуществляется «вслепую» среди всего генома человека и поэтому ценность таких исследований явно преувеличена [1]. Несмотря на острую критику полногеномное исследований, именно они считаются будущим фармакогенетики [2].

Решение проблемы множественного тестирования (то есть, когда в исследовании проверяется более двух гипотез) было достигнуто благодаря разработке целого спектра новых статистических методов [5]. Однако в современной научной литературе нет данных о разработанных алгоритмов применения новейших статистических методов, которые могли бы комплексно раскрывать сложную этиологическую структуру многофакторного заболевания. Большинство научных лабораторий применяют различные методы многофакторного анализа, не всегда позволяют в полном объеме получить необходимую информацию. Кроме того, существует «старая» тенденция применения методов одномерного анализа данных генетических исследований без применения соответствующих коррекций, что еще больше усложняет правильную интерпретацию полученных результатов.

1. Методы исследований

В нашей работе мы использовали два способа для исследования наших данных: метод опорных векторов и алгоритм случайного леса (Random Forrest) модифицированный логистической регрессией. Коротко опишем данные алгоритмы.

Метод опорных векторов (англ. SVM, support vector machine) — набор схожих алгоритмов обучения с учителем, использующихся для задач классификации и регрессионного анализа. Принадлежит к семейству линейных классификаторов. Особым свойством метода опорных векторов является непрерывное уменьшение эмпирической ошибки классификации и увеличение зазора, поэтому метод также известен как метод классификатора с максимальным зазором. Основная идея метода — перевод исходных векторов в пространство более высокой размерности и поиск разделяющей гиперплоскости с максимальным зазором в этом пространстве. Две параллельных гиперплоскости строятся по обеим сторонам гиперплоскости, разделяющей наши классы. Разделяющей гиперплоскостью будет гиперплоскость, максимизирующая расстояние до двух параллельных гиперплоскостей. Алгоритм работает в предположении, что чем больше разница или расстояние между этими параллельными гиперплоскостями, тем меньше будет средняя ошибка классификатора.

Логистическая регрессия - статистический метод, относится к группе изнурительных алгоритмов и применяется для предсказания вероятности возникновения некоторого события, которое может приобретать только два значения (например, здоровый/больной человек) в зависимости от определенного набора предикторов.

Событие, что прогнозируется, кодируется с помощью зависимой переменной, а переменные, что прогнозируют наступления события, называют независимыми переменными. Логистическая регрессия использует биномиальными теорию вероятностей, в которой есть только два значения для прогноза: вероятность (р) равна 1 или 0, то есть событие относится только к той или иной группы. Логистическая регрессия использует метод максимального правдоподобия (maximum likelihood method), который максимизирует вероятность классификации данных, наблюдаемых в определенную категорию с помощью коэффициентов регрессии.

Random forest (с англ. — «случайный лес») — алгоритм машинного обучения, предложенный Лео Брейманом и Адель Катлер, заключающийся в использовании комитета (ансамбля) решающих деревьев. Алгоритм сочетает в себе две основные идеи: метод бэггинга Бреймана, и метод случайных подпространств, предложенный Tin Kam Ho. Этот алгоритм применяется для задач классификации, регрессии и кластеризации. Случайный лес представляет целый ансамбль моделей, состоит из многих классификационных и регрессионных деревьев (CART). Идея создания многих деревьев возникла параллельно с развитием алгоритма множественного индуктивного обучения (Multiple inductive learning, MIL) Williams, 1987-1988. При создании единого классификационного дерева было замечено, что часто выбор другой альтернативной переменной при построении узла классификации дает незначительную разницу. Например, две или более переменных могут не отличаться между собой в своей способности разбивать массив наблюдений на более гомогенные пространство. Метод множественного индуктивного обучения создает много «все равно» хороших моделей, а затем собирает все их в одну модель, которая имеет лучшие возможности классификации данных.

2. Результаты исследований

Мы использовали данные методы для нахождения факторов риска ишемической болезни сердца.

Рисунок 1 Диаграмма факторов риска ишемической болезни сердца.

На рис.1 отображены результаты для ишемической болезни – коричневым цветом отображены факторы риска, отобранные с помощью SVM, жёлтым – с помощью Random Forest модифицированным логистической регрессией. Зелёным цветом мы обозначили факторы, которые получились с отрицательными коэффициентами. Точность SVM составила 0,76, другим же методом соответственно 0,75. Как мы видим с рис.1 наши факторы риска совпали для разных методов, что еще больше подтверждает значимость этих результатов. В итоге генетическими факторами риска ишемической болезни стали полиморфизмы CYP11B2 и A_G_T174, а именно их аллели G/G и T/T соответственно. Другие же аллели – А/А и G/А в CYP11B2 и М/Т в A_G_T174, есть показателями стойкости организма к ишемической болезни сердца, что есть довольно таки логично.

Выводы

Применение методов машинного обучения есть очень перспективными в исследовании генетических данных, а особенно если использовать сразу несколько разных методов. В нашем случае результаты совпали, точность довольно велика, поэтому стоит провести дальнейшие исследования в этом направлении, чтобы иметь большее количество данных и сделать более точные поиски факторов риска.

Список литературы:

Chen GK, Witte JS Enriching the analysis of genomewide association studies with hierarchical modeling. Am J Hum Genet. 2007 Aug; 81(2):397-404.
Ehret G. B., Morrison A. C., O’Connor A. A. Replication of the Wellcome Trust genome-wide association study of essential hypertension // Eur J Hum Genet. 2008 December ; 16(12): 1507–1511.
Harris H. The principles of human biochemical genetics /Amsterdam: North-Holland Publishing Company. - 1975.
Moore J.H. The ubiquitous nature of epistasis in determining susceptibility to common human diseases // Hum. Hered. - 2003. - Vol.56. - P.73-82.
Nelson M.R., Kardia S.L.R., Ferrell R.E., Sing C.F. Combinatorial partitioning method to identify multilocus genotypic partitions that predict quantitative trait variation // Genome Res. - 2001. -Vol. 11, №. - P.458-470.