Информационно-аналитическая система мультиформатных медицинских данных
- Заказчик:
- Первый московский государственный медицинский университет имени И.М. Сеченова Министерства Здравоохранения Российской Федерации (Сеченовский̆ Университет)
- Руководитель проекта со стороны заказчика
- Поставщик
- Beltel Datanomics
- Год завершения проекта
- 2023
- Сроки выполнения проекта
- май, 2023 — декабрь, 2023
- Масштаб проекта
- 4500 человеко-часов
- Цели
Целями создания информационно-аналитической системы, позволяющей осуществлять деперсонализированный поиск пациентов по заданным медицинским параметрам, диагнозам и различным текстовым данным, хранящимся в полях электронной медицинской карты пациента (ЭМК) и других документах медицинских информационных систем, являются:
-
создание основы для проведения масштабных научных исследований;
-
автоматизация работы научного сотрудника по подбору клинических данных для исследования;
-
работа с поисковыми данными для корректировки состава и объема мультиформатных медицинских данных, архивирование поисковых запросов;
-
формирование релевантной выборки пациентов для ретроспективных или текущих исследований.
-
- Результаты
Система позволила:
-
автоматизировать работу научного сотрудника по подбору клинических данных для исследования;
-
работать с поисковыми данными для корректировки состава и объема мультиформатных медицинских данных, архивировать поисковые запросы;
-
формировать релевантную выборку пациентов для ретроспективных или текущих исследований.
Платформа способна выгружать данные по запросу за 10—12 секунд (csv файл объемом 156Мб). На сбор подобного объема данных вручную специалисту понадобилось бы несколько месяцев.
В настоящее время автоматизировано 500 рабочих мест врачей-исследователей Сеченовского Университета.
В Университете регистрируется около 100 датасетов в год, треть из которых собрана с начала 2024 года с использованием Информационно-аналитической системы мультиформатных медицинских данных. Кроме того, система позволяет проводить контроль выборки датасетов, которые формировались до ввода системы в эксплуатацию.
-
Уникальность проекта
На платформу загружены 18 млн. уникальных медицинских документов. Решение помогает исследователям, врачам, студентам и аспирантам Сеченовского Университета проводить научные исследования, оценивать эффективность методов лечения на разных группах пациентов, а IT-командам – создавать сервисы искусственного интеллекта в области здравоохранения. Вместо месяцев работы в архивах специалисты получили возможность за считанные секунды собирать наборы “живых” клинических данных с возможностью фильтрации по 150 параметрам: полу, возрасту, симптомам пациентов и другим характеристикам. В будущем другие медицинские организации смогут подключаться к платформе, чтобы обмениваться данными и делать научные открытия.
- Проект решает задачи импортозамещения
- Да
- Использованное ПО
Платформа университета использует более 10 сервисов Yandex Cloud.
На данный момент подготовленные и обезличенные данные попадают в хранилище, созданное на базе Managed Service for PostgreSQL. Однако с увеличением нагрузки университет рассматривает переход на Managed Service for Greenplum®.
Для поиска по хранилищу подключили сервис Managed Service for OpenSearch. Чтобы защитить данные от случайного удаления или потерь из-за внештатных ситуаций, создаются резервные копии, которые содержатся в объектном хранилище Object Storage.
Все запросы пользователей проходят через Security Groups — механизм, который контролирует входящий трафик и предотвращает несанкционированный доступ. Для метрик, характеризующих работоспособность приложения, используется Grafana. Исходный код проекта хранится на сервисе Managed Service for GitLab, который также позволяет использовать функции автоматической развертывания приложения.
- Сложность реализации
При разработке платформы данных главной трудностью стала обработка большого объема неструктурированных данных. Чтобы решить эту задачу, специалисты Beltel Datanomics составили спецификацию данных и внедрили их валидацию и типизацию в облаке.
Также ввели итеративную оптимизацию облачного хранилища: разработчики будут постепенно вносить изменения, оптимизировать индексацию или запросы, что улучшит работу сервиса. Данные, которые хранятся в неструктурированном виде, например, информация о госпитализации, преобразовали в простые таблицы с взаимосвязями.
Столкнувшись с большим количеством поисковых параметров (150 параметров и 88 лабораторных исследований, включающие 1700 лабораторных параметров), команда дополнительно акцентировала внимание на детальном проектировании UI/UX системы.
- Описание проекта
При Сеченовском университете работает несколько клинических больниц, где ежегодно проходят лечение 20 000 пациентов.
Информация о пациентах хранится в большой документированной базе на основе медицинской информационной системы (МИС) «1С: Медицина». В МИС также поступают данные из других информационных систем, таких как лабораторная информационная система (ЛИС), информационная система учета и хранения гистологических образцов (ГИС), PACS. Однако, основной функциональностью медицинской информационной системы является диагностика и лечение пациента. Из-за этого возникали сложности с упорядочиванием всех данных для поиска и выгрузкой стандартизированного массива данных. Чтобы быстрее искать и фильтровать информацию о пациентах, было необходимо преобразовать записи в новый формат и обеспечить поддержку их обновления.
Для создания платформы медицинских данных специалисты Beltel Datanomics использовали сервисы Yandex Cloud.
Передача данных, осуществляется по HTTP-протоколу с поддержкой шифрования (HTTPS). Данные представлены в формате JSON.
Выгрузка данных пациентов осуществляется через POST-запросы на сервис, который взаимодействует с облачными базами данных. Ниже представлен полный перечень данных, выгружаемых таким образом:
-
Обезличенная информация о пациенте
-
Медицинские карты
-
Данные госпитализации
-
Данные выписки
-
Оперативные вмешательства
-
Медицинские документы.
Сервер обновляется каждую ночь. Информация в справочниках актуализируется ежедневно, а документы пациентов попадают в систему в виде деперсонализированных данных: на их основе нельзя идентифицировать конкретного человека, пользователь видит только информацию о том или ином клиническом случае. Обезличивание происходит на сервере 1С, и только после этого данные попадают в облако.
Безопасность хранения и передачи данных обеспечивает сервис UserGate, соответствующий требованиям Российской Федерации в области обеспечения безопасности информации. Авторизация происходит через сервер Sechenov ID, также можно зайти в систему по логину и паролю.
В веб-интерфейсе для удобства поиска добавили фильтр по 150 параметрам. Например, врач или ординатор может найти список пациентов с диагнозом Covid в возрастной группе от 50 до 55 лет, при сопутствующем заболевании сахарный диабет и просмотреть результаты тех или иных анализов.
Результат поиска выводится в табличном виде. Эту таблицу можно сохранить в шаблон и вернуться к ней позже, добавив или убрав параметры. Также данные можно выгрузить в csv файл.
-
- География проекта
Федеральное государственное автономное образовательное учреждение высшего образования первый московский государственный медицинский университет имени И.М. Сеченова Министерства Здравоохранения Российской Федерации (Сеченовский̆ Университет) находится в Москве, но также имеет зарубежный филиал в Азербайджане, в г. Баку. В планах развитие проекта в партнерстве с региональными медицинскими ВУЗами РФ.
- Дополнительные презентации:
- Как работает информационно-аналитическая система.pdf