Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: CXII Международной научно-практической конференции «Экспериментальные и теоретические исследования в современной науке» (Россия, г. Новосибирск, 30 апреля 2025 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Волконенков С.С., Рыльцев М.К. МУЛЬТИМОДАЛЬНЫЕ МЕДИЦИНСКИЕ НАБОРЫ ДАННЫХ: ПРОБЛЕМАТИКА И ПЕРСПЕКТИВЫ // Экспериментальные и теоретические исследования в современной науке: сб. ст. по матер. CXII междунар. науч.-практ. конф. № 4(104). – Новосибирск: СибАК, 2025. – С. 24-32.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

МУЛЬТИМОДАЛЬНЫЕ МЕДИЦИНСКИЕ НАБОРЫ ДАННЫХ: ПРОБЛЕМАТИКА И ПЕРСПЕКТИВЫ

Волконенков Святослав Сергеевич

аспирант, кафедра алгоритмической математики, Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В.И. Ульянова (Ленина),

РФ, г. Санкт-Петербург

Рыльцев Максим Константинович

аспирант, кафедра алгоритмической математики, Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В.И. Ульянова (Ленина),

РФ, г. Санкт-Петербург

MULTIMODAL MEDICAL DATASETS: PROBLEMS AND PROSPECTS

 

Svyatoslav Volkonenkov

Postgraduate, Department of Algorithmic Mathematics, Saint Petersburg Electrotechnical University «LETI»,

Russia, Saint-Petersburg

Maxim Ryltsev

Postgraduate, Department of Algorithmic Mathematics, Saint Petersburg Electrotechnical University «LETI»,

Russia, Saint-Petersburg

 

АННОТАЦИЯ

В статье представлен анализ современных мультимодальных медицинских наборов данных, отобранных через PubMed. Рассмотрены их ключевые преимущества, недостатки и перспективы для создания универсальных медицинских мультимодальных данных и моделей. По итогам исследования предложены методы консолидации данных и расширения модальностей для повышения эффективности мультимодальных решений в области медицины.

ABSTRACT

The article presents an analysis of modern multimodal medical datasets selected through PubMed. Their key advantages, disadvantages and prospects for creating universal medical multimodal data and models are considered. Based on the results of the study, methods for data consolidation and modality expansion are proposed to improve the efficiency of multimodal solutions in the field of medicine.

 

Ключевые слова: мультимодальные данные; медицина; мультимодальные модели; инженерия данных; искусственный интеллект.

Keywords: multimodal data; medicine; multimodal models; data engineering; artificial intelligence.

 

Введение

Современные медицинские исследования всё чаще опираются на мультимодальные наборы данных, объединяющие различные модальности, где под модальностью в терминах компьютерных наук подразумевается тип сведений. Однако создание и использование таких наборов сопряжено с рядом вызовов: нерепрезентативные выборки, ограниченный спектр модальностей, отсутствие стандартизации разметки и структур данных, а также этико-юридические сложности при сборе информации. Большинство существующих наборов данных фокусируются на тексте и изображениях, тогда как потенциал других модальностей, таких как аудиозаписи дыхания или речь пациентов, остается недооцененным.

Цель данной статьи – систематизировать актуальные мультимодальные медицинские наборы данных, оценить их разнообразие, выделить достоинства и недостатки тенденции создания мультимодальных наборов, а также предложить потенциальные решения по созданию консолидированных наборов данных и их будущему применению при создании универсальных медицинских мультимодальных моделей.

Анализ мультимодальных медицинских данных

Открытые и ограниченно открытые наборы медицинских данных могут состоять из нерепрезентативной выборки, обладать недостаточно широким спектром модальностей, низким качеством разметки ввиду отсутствия единых стандартов для мультимодальной структуры данных в международном поле исследований [19, с. 14]. Для сбора сведений вручную или посредством сотрудничества с медицинскими организациями необходимы дополнительные затраты и решения проблем с этическими и юридическими аспектами.

Помимо перечисленных трудностей, большая часть существующих наборов данных подразумевает дальнейшую работу моделей с текстом (отчёты, файлы-аннотации) и изображениями, поскольку такие модальности показали хорошие перспективы в сфере медицинской диагностики [19, с. 2]. Медицинская сфера включает в себя работу с более широким спектром модальностей, например, аудиозаписями, видеозаписями, трёхмерными объектами, содержащими геометрические материалы, временными рядами биомедицинских сигналов или табличными данными, где каждая перечисленная модальность может принадлежать различным подмножествам медицинских задач.

Для поиска и дальнейшего анализа современных медицинских мультимодальных наборов данных выбрана поисковая система PubMed. Поиск произведен путём составления логического высказывания. В таблице 1 представлены составные предикаты, определяющие присутствует ли одно или более слов в статье путём применения дизъюнкции.

Таблица 1.

Предикаты для отбора наборов данных в системе PubMed

Предикат 1

Предикат 2

Предикат 3

Предикат 4

Предикат 5

medical OR medicine OR healthcare OR health

multimodal OR cross-modal OR modality OR fusion

image OR audio OR video OR 3D OR time-series

data OR dataset

machine learning OR artificial intelligence

 

Конъюнкция перечисленных предикатов позволяет отобрать научные работы, удовлетворяющие каждому из них. Таким образом, отобраны труды медицинской тематики, содержащие информацию о мультимодальных наборах данных, а также пересекающиеся с областью искусственного интеллекта или машинного обучения. Помимо логического выражения, для отбора использованы и другие встроенные фильтры поисковой системы PubMed: отбирающие работы за последний год и по типу статьи «Набор данных». В результате найдено 21 исследование, структурно и предметно описывающее медицинские мультимодальные наборы показателей.

В таблице 2 представлена информация, описывающая каждый из анализируемых наборов данных с описанием модальностей и перечислением медицинских областей применения.

Таблица 2.

Мультимодальные медицинские наборы данных

Название набора данных

Области применения

Модальности

Emo-FilM [13]

Нейронаука

Табличные данные, временные ряды, файлы-аннотации, 3D-объекты, текстовые данные

ON-Harmony [20]

Нейронаука

Табличные данные, файлы-аннотации, 3D-объекты

China-Fundus-CMIT [6]

Кардиология, офтальмология

Изображения, файлы-аннотации

MRI at 3 Tesla and 7 Tesla [2]

Нейронаука

Табличные данные, файлы-аннотации, 3D-объекты, изображения, текстовые данные

WAND [12]

Нейронаука

Табличные данные, файлы-аннотации, 3D-объекты

MND-MFHC [4]

Неврология

Файлы-аннотации, 3D-объекты, текстовые данные

Dental [7]

Стоматология

Табличные данные, изображения

MedSegBench [10]

Нейронаука

Изображения, 3D-объекты, файлы-аннотации

RIDER-LUNG-CT [22]

Онкология

Изображения, файлы-аннотации

CMHA [18]

Нейронаука

Табличные данные, 3D-объекты, 3D-объекты,

файлы-аннотации

AI-Generated Annotations [15]

Онкология, радиология

Табличные данные, изображения

MMV [21]

Нейронаука

Временные ряды, файлы-аннотации

Multi-center, multi-parametric MRI [5]

Онкология, радиология

Табличные данные, файлы-аннотации, 3D-объекты

Physiological and Psychological Database [16]

Кардиология, психосоматика

Временные ряды, файлы-аннотации, изображения

ROCOv2 [17]

Радиология

Табличные данные, изображения

SatelliteBench [14]

Эпидемиология

Табличные данные, изображения

Aortic Dissection [11]

Кардиология

Видеозаписи, изображения, 3D-объекты, файлы-аннотации

ReMIND [8]

Онкология

Табличные данные, изображения, файлы-аннотации

SUDMEX-TMS [1]

Наркология

Табличные данные, файлы-аннотации, 3D-объекты

dTOR-985 [3]

Нейронаука

3D-объекты, файлы-аннотации

Multimodal single-neuron, intracranial EEG, and fMRI brain responses [9]

Нейронаука

Табличные данные, временные ряды, 3D-объекты, файлы-аннотации

 

Для оценки достоинств и недостатков последних тенденций в инженерии мультимодальных наборов данных в области медицины, наличия дисбаланса в охвате медицинских дисциплин и узкого спектра модальностей проведён анализ распределений по областям применения и модальностей. Данный анализ необходим для разработки стратегий или стандартов создания универсальных медицинских мультимодальных наборов.

На рисунке 1 изображена гистограмма с распределением перечисленных ранее мультимодальных медицинских наборов данных по областям применения.

 

Рисунок 1. Распределение наборов данных по области применения

 

Большая часть последних медицинских наборов данных приходится на области нейронауки, онкологии, пересекающейся с радиологией, и кардиологии пересекающейся с офтальмологией и психосоматикой. В нейронауке доминируют наборы, объединяющие 3D-объекты, табличные данные и файлы-аннотации, что отражает потребность в изучении структурно-функциональных взаимосвязей мозга (Emo-FilM [13], WAND [12], dTOR-985 [3]). В наборах данных, затрагивающих области онкологии и радиологии, акцент смещён на мультимодальную радиомику. Наборы RIDER-LUNG-CT [22] и Multi-center, mutli-parametric MRI [5] сочетают КТ и МРТ с файлами-аннотациями. Для области кардиологии наборы данных обладают не менее широким соответствующим видовым спектром: видео, 3D-моделей и данных различных снимков с файлами-аннотациями.

Такие типы данных подчеркивают сложность интеграции мультимодальных источников в единый аналитический контекст. Для систематизации этой гетерогенности и оценки преобладания конкретных модальностей проведён структурный анализ их распределения. На рисунке 2 представлена гистограмма с распределением наборов данных по модальностям.

 

Рисунок 2. Распределение наборов данных по модальностям

 

Большая часть наборов данных содержит файлы-аннотации, содержащие метаданные, табличные данные, изображения и трёхмерные объекты. Файлы-аннотации могут восприниматься как текстовые данные в соответствие с текстовыми медицинскими отчётами, так и существующие для разметки области интересов на изображениях.

Исходя из полученных результатов, выделены следующие достоинства текущей тенденции исследований и инженерии мультимодальных данных:

  • комбинация различных типов данных обеспечивает многомерный анализ патологий;
  • междисциплинарные наборы обеспечивают возможность исследования кросс-модальных корреляций и разработку более продвинутых мультимодальных моделей с упором на универсальность;
  • открытый доступ к наборам данных облегчает их дальнейшее использование третьими лицами, в том числе для дальнейших исследований и разработок.

По результатам исследования также выделены следующие недостатки текущей тенденции:

  • дисбаланс в распределении по медицинским дисциплинам, ограниченная выборка областей применения;
  • ограниченный спектр модальностей, затрудняющий реализацию универсальных медицинских мультимодальных моделей;
  • гетерогенность форматов данных усложняет процесс их предобработки.

Дальнейшие перспективы и направления исследований

Для решения проблем дисбаланса данных и гетерогенности форматов предлагается поэтапная разработка стандарта, охватывающего ключевые медицинские дисциплины (нейронауку, онкологию, кардиологию). Стандарт должен предусматривать унификацию или методы взаимосвязей метаданных, аннотаций, данных и структур их хранения с учетом специфики каждой из областей, с возможностью расширения на другие области применения.

Для расширения проблемы узкого спектра модальностей в наборы данных предлагается добавлять аудиозаписи (дыхание, сердечные тоны), видеозаписи (двигательные нарушения) и другие типы данных с учётом необходимости их анализа на этапе сбора для дальнейшего изучения кросс-модальных корреляций. Также, например, добавление аудиозаписей и видеозаписей позволит расширить охват на другие области: пульмонологии, реабилитологии. Уже существующие наборы данных можно расширять путём генерации синтетических показателей, например, при помощи других генеративных моделей, как это реализовано в наборе AI-Generated Annotations [15], где результаты в виде табличных сведений синтетически созданы моделью, однако, синтез данных сопряжён с рисками некорректных аннотаций и трудностью валидации данных. Для решения проблем синтеза материалов необходима валидация врачами-экспертами, использование генеративных моделей, обученных на репрезентативных наборах данных.   

Заключение

В настоящей статье представлен анализ современных мультимодальных медицинских наборов данных, отобранных через PubMed. На основе поиска с применением логических предикатов и фильтров идентифицировано 21 исследование, описывающее наборы данных, их модальности и области применения. Проведена оценка распределения наборов по медицинским дисциплинам и типам данных, что позволило выявить ключевые тенденции, достоинства и недостатки. 

Выделены достоинства мультимодальных наборов: комбинация разнородных данных для многомерного анализа, междисциплинарный подход, открытость доступа. Определены недостатки: дисбаланс в охвате медицинских дисциплин, ограниченный спектр модальностей, гетерогенность форматов. 

Для решения проблем предложены методы поэтапной стандартизации, включая унификацию метаданных, методов аннотации и структур хранения. Рекомендовано расширение модальностей за счёт аудио-, видеозаписей и 3D-моделей, а также генерация синтетических данных с обязательной экспертной валидацией. 

Реализация предложенных подходов в перспективе поспособствует повышению эффективности мультимодальных решений в медицине, обеспечивая создание универсальных моделей, применимых в диагностике, прогнозировании и персонализированном лечении.

 

Список литературы:

  1. Angeles-Valdez D. et al. The Mexican dataset of a repetitive transcranial magnetic stimulation clinical trial on cocaine use disorder patients: SUDMEX TMS // Scientific data. – 2024. – Vol. 11. – N 1. Art. 408. DOI: 10.1038/s41597-024-03242-y.
  2. Chu L. et al. A paired dataset of multi-modal MRI at 3 Tesla and 7 Tesla with manual hippocampal subfield segmentations // Scientific data. – 2025. – Vol. 12. – N 1. Art. 260. DOI: 10.1038/s41597-025-04586-9.
  3. Elias G.J.B. et al. A large normative connectome for exploring the tractographic correlates of focal brain interventions // Scientific data. – 2024. – Vol. 11. – N 1. Art. 353. DOI: 10.1038/s41597-024-03197-0.
  4. Gao P. et al. A multi-modal neuroimaging data release for Meige Syndrome and Facial Paralysis Research // Scientific data. – 2025. – Vol. 12. – N 1. – Art. 62. DOI: 10.1038/s41597-025-04383-4.
  5. Gong Z. et al. A Multi-Center, Multi-Parametric MRI Dataset of Primary and Secondary Brain Tumors // Scientific data. – 2024. – Vol. 11. – N 1. Art. 789. DOI:10.1038/s41597-024-03634-0.
  6. Guo N. et al. High-resolution fundus images for ophthalmomics and early cardiovascular disease prediction // Scientific data. – 2025. – Vol. 12. – N 1. Art. 568. DOI: 10.1038/s41597-025-04930-z.
  7. Huang Y. et al. A multimodal dental dataset facilitating machine learning research and clinic services // Scientific data. – 2024. – Vol. 11. – N 1. Art. 1291. DOI: 10.1038/s41597-024-04130-1.
  8. Juvekar P. et al. ReMIND: The Brain Resection Multimodal Imaging Database // Scientific data. – 2024. – Vol. 11. – N 1. Art. 494. DOI: 10.1038/s41597-024-03295-z.
  9. Keles U. et al. Multimodal single-neuron, intracranial EEG, and fMRI brain responses during movie watching in human patients // Scientific data. – 2024. – Vol. 11. – N 1. Art. 214. DOI:10.1038/s41597-024-03029-1.
  10. Kuş Z, Aydin M. MedSegBench: A comprehensive benchmark for medical image segmentation in diverse data modalities // Scientific Data. – 2024. – Vol. 11. – N 1. Art. 1283. DOI: 10.1038/s41597-024-04159-2.
  11. Mayer C. et al. Type B Aortic Dissection CTA Collection with True and False Lumen Expert Annotations for the Development of AI-based Algorithms // Scientific data. 2024. Vol. 11. N 1. Art. 596. DOI: 10.1038/s41597-024-03284-2.
  12. McNabb C. B et al. WAND: A multi-modal dataset integrating advanced MRI, MEG, and TMS for multi-scale brain analysis // Scientific data. – 2025. – Vol. 12. – N 1. Art. 220. DOI: 10.1038/s41597-024-04154-7.
  13. Morgenroth E. et al. Emo-FilM: A multimodal dataset for affective neuroscience using naturalistic stimuli // Scientific Data. – 2025. – Vol. 12. – N 1. Art. 684. DOI: 10.1101/2024.02.26.582043.
  14. Moukheiber D. et al. A multimodal framework for extraction and fusion of satellite images and public health data // Scientific data. – 2024. – Vol. 11. – N 1. Art. 634. DOI: 10.1038/s41597-024-03366-1.
  15. Murugesan G. K. et al. AI-Generated Annotations Dataset for Diverse Cancer Radiology Collections in NCI Image Data Commons // Scientific data. – 2024. – Vol. 11. N 1. Art. 1165. DOI: 10.1038/s41597-024-03977-8.
  16. Peng X. et al. A multimodal physiological and psychological dataset for human with mental stress induced myocardial ischemia // Scientific data. – 2024. – Vol. 11. – N 1. Art. 704. DOI: 10.1038/s41597-024-03462-2.
  17. Rückert J. et al. ROCOv2: Radiology Objects in COntext Version 2, an Updated Multimodal Image Dataset // Scientific data. – 2024. – Vol. 11. – N 1. Art. 688. DOI: 10.1038/s41597-024-03496-6.
  18. Song M. et al. Intracranial aneurysm CTA images and 3D models dataset with clinical morphological and hemodynamic data // Scientific data. – 2024. – Vol. 11. – N 1. Art. 1213. DOI: 10.1038/s41597-024-04056-8.
  19. Tong R., Xu T., Ju X., Wang L. Progress in Medical AI: Reviewing Large Language Models and Multimodal Systems for Diagonosis // AI Med. – 2025. – Vol. 1. – N 1. – P. 165-186.
  20. Warrington S. et al. A multi-site, multi-modal travelling-heads resource for brain MRI harmonization // Scientific data. – 2025. – Vol. 12. – N 1 Art. 609. DOI: 10.1038/s41597-025-04822-2.
  21. Wei W. et al. A MultiModal Vigilance (MMV) dataset during RSVP and SSVEP brain-computer interface tasks // Scientific data. – 2024. – Vol. 11. – N 1. – Art. 867. DOI: 10.1038/s41597-024-03729-8.
  22. Zhao B. et al. Annotated test-retest dataset of lung cancer CT scan images reconstructed at multiple imaging parameters // Scientific data. – 2024. – Vol. 11. – N 1. – Art. 1259. DOI: 10.1038/s41597-024-04085-3.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий